腾讯AI Lab：我们发现了ChatGPT的又一个短板-品论天涯网

在今天，狂热追捧ChatGPT，仿佛已经成为了一种“政治正确”。ChatGPT一出，学界、工业界无不惊为天人。一位研究机构的资深研究员就对AI科技评论说过：“ChatGPT出来，直接给我们整不会了——生成做的比我们好就不说了，NLP（自然语言处理）能力还比我们强不少。”hZv品论天涯网

微软注资百亿美元，Google则如临大敌，ChatGPT在科技圈里掀起的巨浪，仍是现在进行时。hZv品论天涯网

但是，ChatGPT并非“万能钥匙”——大模型在某些专业领域的准确度，仍然无法超越其他垂类产品。近日，腾讯AILab就通过实验证明，在机器翻译领域，ChatGPT在某些情况下，能力弱于其他商业翻译产品。hZv品论天涯网

论文地址：https://arxiv.org/pdf/2301.08745v1.pdf
hZv品论天涯网

1hZv品论天涯网

ChatGPT是个好翻译吗？hZv品论天涯网

腾讯AILab的调查文指出：hZv品论天涯网

首先，在高资源环境——如欧洲语言上——ChatGPT的表现与商业翻译产品（如Google翻译、DeepLTranslate）相比具有竞争力，但是，在低资源环境——如古代语言——明显落后；hZv品论天涯网

其次，在翻译的鲁棒性上，ChatGPT在生物医学摘要、或Reddit评论方面表现不如商业翻译产品，但是在口语方面也许会是一个很好的翻译工具。hZv品论天涯网

为了更好地理解ChatGPT的翻译能力，腾讯AILab从以下三个方面开展实验：hZv品论天涯网

提示词（Prompt）翻译：ChatGPT是一个大型语言模型，在翻译时需有提示词（Prompt）作为引导才能引导系统进行翻译。所以，提示词的风格会影响翻译输出的质量。例如，在多语言机器翻译模型中，如何将两种语言信息联系起来非常重要，这通常是通过附加语言标记来解决。hZv品论天涯网

多语言翻译：ChatGPT是一个处理各种NLP任务并涵盖不同语言的单一模型，可以被视为一个统一的多语言机器翻译模型。因此，ChatGPT在资源差异（如高与低）和语系差异（如欧洲与亚洲）上的表现是该实验所探讨的重点之一。hZv品论天涯网

翻译鲁棒性：ChatGPT是基于GPT-3开发的模型，GPT-3在涵盖各种领域的大规模数据集进行上训练，因此，在特定领域的表现，是这次研究者们的重点之一。hZv品论天涯网

提示词翻译hZv品论天涯网

为了设计触发ChatGPT机器翻译能力的提示词，腾讯AILab团队向ChatGPT提出以下prompt：hZv品论天涯网

提供十个可以让你翻译的简明提示或模版hZv品论天涯网

并获得图1中的结果：hZv品论天涯网

图1:ChatGPT推荐的10个可引发其进行机器翻译的prompthZv品论天涯网

生成的提示语看起来很合理，但是都有相似的格式，研究人员将它们总结成三个候选prompt（如图2），其中[SRC]和[TGT]分别代表翻译的源语言和目标语言。另外，研究人员在Tp2中增加了一个额外命令，要求ChatGPT不要在翻译的句子上加双引号（在原始格式中经常发生）。尽管如此，ChatGPT依旧不稳定，如会将同一批次的多行句子翻译成单行。
hZv品论天涯网

图2：候选翻译提示hZv品论天涯网

研究人员将三种不同的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较，图3显示了ChatGPT和其他三个翻译软件的结果。虽然ChatGPT提供了相当好的翻译，但它仍然落后于基线至少5.0个BLEU点。关于三个候选prompt，Tp3在所有指标方面表现的最好，因此在这篇论文中，研究者默认使用Tp3。hZv品论天涯网

hZv品论天涯网

图3：在中译英翻译任务中ChatGPT使用不同提示语的翻译表现对比hZv品论天涯网

多语言翻译hZv品论天涯网

腾讯AILab选择了四种语言来评估ChatGPT在多语言翻译中的能力，包括德语（De）、英语（En）、罗马尼亚语（Ro）和中文（Zh），这些语言在研究和竞赛中都被普遍采用。前三种语言同来自拉丁语系，而后一种则来自中文语系。研究人员测试了任意两种语言间的翻译表现，共涉及12次翻译。hZv品论天涯网

资源差异hZv品论天涯网

通过实验发现，在同语系中不同语言也存在资源差异。在机器翻译中，德英互译通常被认为是一个高资源任务，有超过1000万条语料。而罗马尼亚语与英语间互译语料要少得多。hZv品论天涯网

如图4所示，ChatGPT在德译英和英译德上，与Google翻译和DeepL可以分庭抗礼；而在罗马尼亚语译英，和英译罗马尼亚语方面，则要明显落后。具体来说，ChatGPT在英译罗马尼亚语上获得的BLEU分数比Google翻译低了46.4%。hZv品论天涯网

hZv品论天涯网

图4：ChatGPT在多语言翻译中的表现hZv品论天涯网

研究者认为，英语和罗马尼亚语之间的单一语言数据的巨大资源差异，限制了罗马尼亚语的语言建模能力，这部分解释了将英语翻译成罗马尼亚语表现差的原因。hZv品论天涯网

相反，罗马尼亚语译成英语可以受益于强大的英语建模能力，使平行数据的资源缺口可以得到一定程度的补偿。hZv品论天涯网

语系hZv品论天涯网

同时，研究人员也考虑了语系的影响。hZv品论天涯网

通常认为，对于机器翻译，不同语系之间的翻译通常比同一语系间翻译更难。研究人员发现，德英互译、汉英互译，或者德汉互译在文化和书写方式上存在差异。hZv品论天涯网

另外可以发现，在这几种翻译中，ChatGPT和几款商业翻译软件间差距较大，研究者认为，这是因为在同一语系中知识转移比在不同语系间要好，对于既是低资源又来自不同语系的语言来说（如罗马尼亚语和汉语的互译），这种差距会进一步扩大。hZv品论天涯网

由于ChatGPT在一个模型中处理不同的任务，低资源的翻译任务不仅与高资源的翻译任务竞争，而且还与其他NLP任务竞争模型容量，这说明其性能表现欠佳。hZv品论天涯网

翻译鲁棒性hZv品论天涯网

腾讯AILab进一步评估了ChatGPT在WMT19Bio和WMT20Rob2和Rob3测试集上的翻译鲁棒性，这些测试集引入了领域偏见和潜在的噪声数据。hZv品论天涯网

例如WMT19Bio测试集是由Medline摘要组成的，这需要特定领域的知识处理，WMT20Rob2是来自Reddit的评论，可能包含各种错误，如拼写错误、单词遗漏、插入重复、语法错误、破坏性语言，和网络俚语等。图5列出了BLEU分数，显然ChatGPT在WMT19Bio和WMT20Rob2测试集上的表现不如Google翻译和DeepLTranslate。hZv品论天涯网

hZv品论天涯网

图5：ChatGPT在翻译鲁棒性方面的表现hZv品论天涯网

原因可能在于，像Google翻译这样的商业翻译产品往往需要不断提高其翻译特定领域（如生物医学）或噪音句子的能力，因为它们是现实世界的应用，需要对分布之外的数据有更好地概括性，ChatGPT不太能够完成这一点。hZv品论天涯网

不过，一个有趣的发现是，ChatGPT在包含众包语音识别语料的WMT20Rob3测试集上大大超过了Google翻译和DeepLTranslate。这表明，ChatGPT本质上是一个人工智能对话工具，能够比商业翻译软件生成更自然的口语（见图6）。hZv品论天涯网

hZv品论天涯网

图6：来自WMT20鲁棒集set3的例子hZv品论天涯网

2hZv品论天涯网

ChatGPT应如何扬长避短？hZv品论天涯网

从该研究可知，高举高打的ChatGPT每训练一次就耗费大量算力资源，但也不能在全领域尽善尽美。所以，一些人开始思考，是否应该“摒弃”大模型思路，转而去做“精耕细作”的小模型。hZv品论天涯网

腾讯AILab在ChatGPT“测评”中提到，罗马尼亚语与英语互译，相较德英互译存在较大差距，原因在于：巨大资源差异，限制了罗马尼亚语的语言建模能力，也恰恰证明，AI学习能力常常受到低资源的掣肘。hZv品论天涯网

但也有资深学者认为，尽管现时ChatGPT仍存在不少不足之处，但仍然对研究者和创业者有着不少启示。以ChatGPT为代表的AI3.0走的是跟过去AI浪潮不一样的路，即更落地、更接近真实世界，在工业应用上，更直接，更落地，从学术研究到工业落地的路径也变得更短、更快。hZv品论天涯网

未来，“helpful,truthful,harmless”的AI系统会成为现实。hZv品论天涯网