Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名-品论天涯网

为OpenAI和NvidiaCorp.等公司提供服务的人工智能训练数据提供商ScaleAIInc.今天发布了其首个SEAL排行榜的结果。这是一个新的前沿大型语言模型排名系统，它基于私有的、经过策划的和未开发的数据集，目的是对这些模型在生成式人工智能编码、指令跟踪、数学和多语言性等常见使用案例中的能力进行评级。
yAn品论天涯网

SEAL排行榜显示，OpenAI的GPT系列LLM在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，AnthropicPBC广受欢迎的Claude3Opus在第四个领域排名第一。GoogleLLC的Gemini模型也表现出色，在其中几个领域与GPT模型并列第一。yAn品论天涯网

ScaleAI表示，它之所以创建SEAL排行榜，是因为现在有数以百计的LLM可供公司使用，而人工智能的表现却缺乏透明度。这些排行榜由ScaleAI的安全、评估和对齐实验室（Safety,Evaluations,andAlignmentLab）开发，并声称通过拒绝透露其用于评估LLM的提示的性质来保持中立性和完整性。yAn品论天涯网

该公司指出，虽然也有其他对LLM进行排名的努力，如MLCommons的基准和斯坦福HAI的透明度指数，但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如，ScaleAI指出，MLCommon的基准是公开的，因此公司可以对其模型进行专门训练，以准确响应他们使用的提示。yAn品论天涯网

SEAL开发了私有的评估数据集，以保持其排名的完整性，据说其测试是由经过验证的领域专家创建的。此外，所使用的提示和给出的排名都经过仔细评估，以确保其可信度，同时通过公布所使用评估方法的明确解释来确保透明度。yAn品论天涯网

ScaleAI表示，在ScaleCoding领域，每个模型都要在随机选择的提示上与评估中的其他模型进行至少50次比较，以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力，排行榜显示，OpenAI的GPT-4TurboPreview和GPT-4o模型与Google的Gemini1.5Pro（I/O后）并列第一。yAn品论天涯网

之所以将它们并列第一，是因为ScaleAI只声称其评估分数的置信度为95%，而且前三名之间的差距很小。尽管如此，GPT-4TurboPreview似乎略胜一筹，获得了1155分，GPT-4o以1144分位居第二，Gemini1.5Pro（PostI/O）获得了1112分。yAn品论天涯网

yAn品论天涯网

在多语言领域，GPT-4o和Gemini1.5Pro（PostI/O）并列第一，得分分别为1139分和1129分，GPT-4Turbo和GeminiPro1.5（PreI/O）紧随其后，并列第三。yAn品论天涯网

yAn品论天涯网

GPT-4o在"指令跟踪"领域也名列前茅，获得88.57分，GPT-4TurboPreview以87.64分名列第二。结果表明，Google在这一领域仍需努力，因为OpenAI最接近的竞争对手是MetaPlatforms公司的开源Llama370bInstruct（得分85.55）和Mistral公司的MistralLargeLatestLLM（得分85.34）。yAn品论天涯网

yAn品论天涯网

最后，ScaleAI测试了LLM的数学能力。事实证明，Anthropic的Claude3Opus以95.19的高分拔得头筹，无可争议地获得了第一名，超过了95.10的GPT-4TurboPreview和94.85的GPT-4o。yAn品论天涯网

yAn品论天涯网

这些比较很有意思，但似乎还不能说明全部问题，因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如，AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和CommandLLM在所有四项评估中都明显缺席，埃隆-马斯克（ElonMusk）的生成式人工智能初创公司xAICorp.建立的Grok模型也是如此。yAn品论天涯网

好消息是，ScaleAI可能会解决LLM排行榜不完整的问题。该公司表示，它打算每年多次更新排行榜，以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外，它还计划在排行榜上添加新的领域，力争成为最值得信赖的大模型第三方评估机构。yAn品论天涯网

Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名