大模型迁移评估（啤酒事务局）

评估方式

采用啤酒事务局的数据进行20个问题评测，记录问题、答案、检索到的信息（采用两种分割方式）

分别对通义千问、文心一言、ChatGlm、Gpt3.5进行测试

1.回答效果：回答效果占比70% 分别有准确性50% 情感10% 逻辑10% 2.回答速度：回答速度占比20% 3.敏感词过滤：敏感词过滤占10%

根据第一轮测试数据，按照总分10分给以下项目打分。

除了少数一两个问题，GPT 3.5几乎能够比较准确、完整地回答所有问题。

GLM 也比较完整，但出现了较多乱码”\n“，另外出现了信息不准确的情况（如问上海酒吧，答案中的酒吧不在上海），即比较敢胡说八道。另外答案的呈现方式不如GPT 3.5清晰明了（如不会分段）。

通译千问也比较敢说，但一半左右的问题答案都不准确，错误率过高，不具备使用价值。

相比通译千问，文心一言的错误率略低，但也有约3成左右回答错误。