封面

**目的:**创建一个【客制化】的【可进化的】DAO组织答疑机器人。

背景介绍

惊讶于ChatGPT强悍的问答能力,我们在想,是否可以训练它收录并回答与我们的组织相关的数据。我们想象的场景是这样的:

我们把seedao notion里面的所有内容复制粘贴给chatGPT,然后它就可以“神奇地“回答我们提出的关于seedao的大部分问题。

但是现实是,项目开始时,我们发现:

  1. ChatGPT并没有开放API,所以我们不能直接基于ChatGPT进行训练,只能采用GPT-3中的达芬奇模型。而使用达芬奇训练的成本大约是xxtoken/1美金。当然这个问题在3月1日ChatGPT开放API之后完美解决了。
  2. 任何模型的训练过程都需要大量的前期人工审核和标注,先有规则,才有智能。

My current plan is to train based on the Davinci model from OpenAI, but the challenge is I have to spend massive time standardizing the content. Are there more effective ways you recommend?

Unfortunately, there's no better way. Any machine learning tool requires a large amount of data for training. After that, someone needs to supervise and tell the tool what's right and wrong. If the data is not in at least Terabytes, simple algorithms written by developers can work more effectively rather than any existing tools.

那怎么样才能避免繁琐重复的人工标注呢?我们灵机一动,虽然没有ChatGPT的API,但是我们有ChatGPT呀。于是,我们把段落内容输入给ChatGPT,并要求它拆分出我们用于训练的标准数据格式:

Untitled

完美!

产品&技术架构

结下的事情就顺利多了:为了集成一套“用户输入段落内容-ChatGPT将内容标准化-喂给模型进行训练-实现特定领域问答”的自动化流程,我们搭建了以下功能模块: