采用啤酒事务局的数据进行20个问题评测,记录 问题、答案、检索到的信息(采用两种分割方式)
分别对通义千问、文心一言、ChatGlm、Gpt3.5进行测试
1.回答效果:回答效果占比70% 分别有准确性50% 情感10% 逻辑10% 2.回答速度:回答速度占比20% 3.敏感词过滤:敏感词过滤占10%
根据第一轮测试数据,按照总分10分给以下项目打分。
除了少数一两个问题,GPT 3.5几乎能够比较准确、完整地回答所有问题。
GLM 也比较完整,但出现了较多乱码”\n“,另外出现了信息不准确的情况(如问上海酒吧,答案中的酒吧不在上海),即比较敢胡说八道。另外答案的呈现方式不如GPT 3.5清晰明了(如不会分段)。
通译千问也比较敢说,但一半左右的问题答案都不准确,错误率过高,不具备使用价值。
相比通译千问,文心一言的错误率略低,但也有约3成左右回答错误。