随着ChatGPT热度一直不减,OpenAI持续拓展其能力。同时,ChatGPT的竞品不断涌现,如何更准确检测其生成文本也成为了近来学界的一大研究课题。自ChatGPT发布以来,它的能力不断被人们解锁,比如写神经网络、做智能音箱。人们在试用中慢慢发现,数学能力是ChatGPT的一大短板,连简单的“鸡兔同笼”题都能算错。
大概是考虑到了这一点,ChatGPT刚刚宣布了一次重要更新:提升了“真实性”和“数学能力”。
本次是ChatGPT自去年11月推出以来的第三次更新,但由于“更新说明”过于模糊,人们还需要经历一个对新能力的探索过程。
几日前,计算机科学家、Wolfram语言之父StephenWolfram将理工科神器Wolfram|Alpha与ChatGPT结合起来,为后者注入超强计算知识实现互补,效果相当不错。
那么,这次更新之后的ChatGPT数学能力可与其一战吗?
看起来……对比的结果不尽如人意:
“只能说神经网络不是用来干这个的”,SebastianRaschka都觉得无奈了。
还有人发现,升级后的ChatGPT“脾气逐渐暴躁”:
“你数学是哪位老师教的?”面对一道十以内加减法的题目,它的语气像极了辅导孩子作业的家长。
这也许是“偶然现象”?看来数学是真难。
不管怎么说,我们可以期待一波后续的有趣Demo了。
太卷了:ChatGPT和它的竞争者们
“未来6到12个月将带来实验的爆炸式增长,一旦公司能够使用OpenAI的API在ChatGPT之上构建。出现的杀手级用例可能是围绕生成式AI对知识管理的影响。”
NicolaMoriniBianzino。
在最近的一次公开活动上,安永全球首席技术官NicolaMoriniBianzino表示,目前还没出现在企业中使用ChatGPT的“杀手级”用例。但这种状态可能很快就会改变,他预测未来6到12个月将带来大量实验,尤其是当公司能够使用OpenAI的API在ChatGPT上构建之后。
Bianzino将生成式AI对知识管理的影响描述为“AI的辩证法”。“知识公司倾向于以一种非常扁平的二维方式存储知识,这使得访问、互动和对话变得困难。我们在20、30、40年前尝试构建专家系统。这并不是很顺利,因为它们太死板了。我认为这项技术有望克服专家系统存在的许多问题。”NicolaMoriniBianzino表示。
与此同时,ChatGPT的竞争者们也不断涌现,这个赛道变得越来越“卷”。从Anthropic公司的Claude、DeepMind公司的Sparrow、Google公司的LAMDA到CharacterAI,每天似乎都有新竞争者步入赛场。
Anthropic是一家旧金山的初创公司,由几位离开OpenAI的研究人员于2021年创立。公司成立不到一年后就宣布了高达5.8亿美元的融资,上周五还被报道即将增加3亿美元融资。
这家公司开发了一个名为“Claude”的AI聊天机器人,目前通过Slack集成在封闭测试版中可用,据报道它与ChatGPT相似,甚至有一些改进。Anthropic描述自身的使命为“致力于构建可靠、可解释和可操纵的AI系统”。
DeepMind同样是这条赛道上不可忽视的力量。这家公司在9月份的一篇论文中介绍了“Sparrow”,被誉为“朝着创建更安全、偏差更小的机器学习系统迈出的重要一步”。Sparrow是“一种有用的对话智能体,可以降低不安全和不适当答案的风险”,旨在“与用户交谈、回答问题并在有助于查找证据”。
不过,DeepMind的安全研究员、Sparrow论文的主要作者GeoffreyIrving表示,DeepMind认为Sparrow是一个基于研究的概念验证模型,尚未准备好部署。
在两周前的《时代周刊》文章中,该公司的首席执行官兼联合创始人DemisHassabis表示,DeepMind正在考虑在2023年的某个时候发布其聊天机器人Sparrow的“私人测试版”。如此一来,公司就可以开发基于强化学习的功能,比如引用来源——这是ChatGPT所没有的能力。
再说到Google的LaMDA,这一模型曾在去年夏天引发过热议——Google工程师BlakeLemoine因声称LaMDA具有感知能力而被解雇。
即使不像Lemoine认为的那样,LaMDA仍被认为是ChatGPT最大的竞争对手之一。Google在2021年发布的博客文章中表示,LaMDA的对话技巧“已经酝酿多年”。与ChatGPT一样,LaMDA建立在Transformer架构之上,也接受过对话方面的训练。
根据Google的说法,“在训练期间,LaMDA发现了一些将开放式对话与其他形式的语言区分开来的细微差别。”
《纽约时报》在1月20日的一篇报道中提到,Google创始人LarryPage和SergeyBrin上个月会见了公司高管,讨论了ChatGPT可能对Google1490亿美元的搜索业务构成的威胁。Google发言人在一份声明中表示:“我们继续在内部测试我们的AI技术,以确保它有用且安全,我们期待尽快与外部分享更多经验。”
另外一位颇具实力的玩家则是CharacterAI,这家公司由Transformer论文作者之一NoamShazeer创办,逐渐为人熟知。
该公司推出的AI聊天机器人技术允许用户与任何人聊天或进行角色扮演,比如模仿伊丽莎白女王和莎士比亚等历史人物。目前该技术是免费使用的,Character正在“研究用户如何与之互动,然后再制定具体的创收计划。”
传百度将发布类似ChatGPT的聊天机器人
更能引起国内AI从业者关注的是,据路透社、彭博社等多家外媒报道称,百度公司计划在3月份推出类似于OpenAI的ChatGPT的人工智能聊天机器人服务。
消息人士称,百度计划在用户提出搜索请求时整合聊天机器人生成的结果,而不仅仅是链接。“该工具尚未命名,将嵌入在主搜索服务中,用户将返回对话风格的搜索结果。”
在去年12月在一次内部讨论中,百度CEO李彦宏曾分享自己对ChatGPT的看法:“把这么酷的技术变成人人需要的产品”才是最难的,希望百度新的一年“至少能有一个高成长、有创新的业务,真正的aboveandbeyondourexpectation”。
而据《科创板日报》1月30日报道,百度内部确有推出类似ChatGPT聊天机器人的规划,但具体时间并不精确。百度CEO李彦宏对于该项目的定位是“引领搜索体验的代际变革”。他在内部指出,相关技术已达到临界点,百度在其中有较大的机会。
检测利器:让大型语言模型生成的文本无处隐藏
ChatGPT的能力纵然强大,但同时它在学校作业、论文发表等领域的滥用已经引发了人们广泛的担忧。因此,学界开始探索检测ChatGPT等大型语言模型(LLM)生成文本的方法和工具。
马里兰大学几位研究者对ChatGPT等语言模型输出的水印进行了研究。在论文《AWatermarkforLargeLanguageModels》,他们提出了一种高效水印框架,水印的嵌入对文本质量的影响忽略不计,可以使用高效的开源算法进行检测,而无需访问语言模型的API或参数。
本文方法可以检测到比较短的合成文本(少至25个tokens),同时使得人类文本在统计学上不可能被标记为机器生成。
斯坦福大学几位研究者在论文《DetectGPT:Zero-ShotMachine-GeneratedTextDetectionusingProbabilityCurvature》中,证明了从LLM中采样的文本倾向于占据模型对数概率函数的负曲率区域。利用这一观察结果,他们定义了一个基于曲率的新标准,来判断一段文章是否由给定的LLM生成。
研究者将他们的方法称为DetectGPT,它不需要训练单独的分类器、收集真实或生成段落的数据集以及显式地为生成文本加水印。DetectGPT仅使用感兴趣模型计算的对数概率和另一通用预训练语言模型(如T5)生成段落的随机扰动。
结果发现,DetectGPT比当前模型样本检测的零样本方法更具辨别力,尤其是将20B参数GPT-NeoX生成的假新闻报道检测从最强零样本基线的0.81AUROC提升到了0.95AUROC。未来将公布代码和数据。
DetectGPT检测GPT-3生成文本的示意图。
除了以论文形式展现的检测方案,也有个人推出了强大的检测工具。比如一位来自HiveAI、致力于ChatGPT检测器研究的ML工程师,其方案能够识别ChatGPT、GPT-3和其他流行AI引擎生成的文本。
从内部基准测试结果来看,该方案效果明显优于GPTZero和OpenAIGPT2OutputDetector等类似方法。在内部数据集上,模型平衡准确率>99%,而GPTZero的准确率约为60%,OpenAIGPT2OutputDetector的准确率为84%。
最后,GPTZero也迎来了更新——GPTZeroX,一个专为教育者打造的全新AI检测模型。该模型可以混合处理AI生成和人类文本,并突出显示最有可能由AI生成的文本部分。此外构建了一个pipeline来处理PDF、Word和.txt格式的文件批量上传,从而轻松运行多个文件。
总之,随着AI生成文本检测工具的日益丰富和日加完善,ChatGPT等大型语言模型在应用时势必会越来越正规,帮助人们更高效地释放AI的能力。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】