人工智能的炒作还是很热,仿佛全自动驾驶和比人聪明的人工智能就是几年内的事情了。但训练数据集扩大带来的回报正在递减,而用所述数据集所需的算力(能源、成本)又呈指数级增长,再加上更高效的解决方案还没有出现或进入实用阶段,未来几年人工智能的发展将面临天花板,别总想着指数发展。
访问:
过去几个月,对人工智能的炒作已经到了疯狂的地步。什么特斯拉在一两年内就要实现全自动驾驶了,人工智能明年将会变得比人类更聪明了,到2040年会有十亿台人工智能机器人取代人类工人了,这些还只是埃隆·马斯克今年迄今为止对人工智能许下的海口之一。整个人工智能圈都充斥着这样的预测和承诺,给人感觉人工智能的发展已走上不可阻挡的指数轨迹曲线上,已经到了我们人类根本无法阻止的地步。但是事实并非如此。要我说,人工智能正开始触碰到收益递减的发展天花板,从而令这些夸张的承诺变成一张废纸。下面我会解释的。
要想理解这个问题,我们得先了解一点人工智能的基本工作原理。现代人工智能运用的是深度学习算法与人工神经网络,借此来发现数据当中的趋势。然后,人工智能就可以根据这些数据推断或沿着同一趋势线生成新的数据。这首先需要“训练”人工智能,将大量数据喂给它进行分析,让它去发现这些趋势。之后,你就可以抛问题给人工智能来获得输出。这个基本概念为计算机视觉、自动驾驶汽车、聊天机器人以及生成式人工智能提供了动力。这个解释有点简化了,但现在我们只需要了解这些就够了。
过去几年,人工智能的能力有了显著增强。这部分要归功于有了更好的编程和算法。但90%要归功于用了更大的数据集对人工智能进行训练。从而使得人工智能可以更准确地了解数据趋势,从而更准确地生成结果。但有个问题:我们正目睹相对于所需的数据和算力,训练人工智能带来的回报正在急剧递减。
我们先从数据讲起。假设我们开发了一个简单的计算机视觉人工智能,它可以识别出狗和猫,我们已经用100只狗和猫的图像和视频对其进行了训练,它可以在60%的时间内正确识别这些动物。如果我们将训练的图像和视频数量增加一倍,达到200个,其识别率就会提高,但只能略微提高到65%左右。如果我们再次将训练图像和视频增加一倍,达到400个,那么其改进将更加微乎其微,只能达到67.5%左右。
这其中的部分原因在于,如果你手头的数据集比较小时,相对于较大的数据集,往里面添加一张新的训练图像,所提供的新数据会更多。不过,这也是因为人工智能处理小的数据集可以迅速建立新的连接与趋势,因为它只需找到适用于几个示例的趋势即可。但随着数据集的增长,找到对整个数据集都适用的新趋势和连接变得越来越难。这些来自较更大数据集的新趋势和连接让人工智能变得更好、能力更强。因此,随着训练人工智能的收益递减,我们看到将人工智能改进到一定程度所需要的训练数据量急剧增加。
但这里面还有一个问题。训练人工智能对算力的需求非常大。人工智能必须将每个单独的数据点与数据集所有其他数据点进行比较,这样才能找到它们的关联和趋势。这意味着,每往人工智能训练数据库添加一位数据,用这个数据库训练人工智能所需的计算工作量都会呈指数级增长。因此,就算你有能力获取到训练这些不断改进的人工智能所需的大量数据,它所需的物理计算能力和能源最终也会增长到难以为继的地步。
可悲的是,有证据表明,我们现在正处在这样一个阶段:一方面训练数据集扩大带来的回报在递减,一方面用所述数据集所需的算力又呈指数级增长,这些都会给人工智能的发展制造刚性的上限。
就拿OpenAI的旗舰人工智能产品ChatGPT4来说吧,但它相对于ChatGPT3的改进要小于ChatGPT3相对于ChatGPT2的改进,尽管它的准确率提高了,但仍然存在跟ChatGPT3一样的幻觉与缺乏理解的问题。虽说OpenAI对自己的人工智能开发方式守口如瓶,但专家调查发现,ChatGPT3使用的训练数据集比ChatGPT2大了78倍,而ChatGPT4所用的数据集比ChatGPT3要大571倍!可是,尽管训练数据集的大小有了显著提升,但ChatGPT4仍然存在重大缺陷,大大限制了它的使用场景。比方说,还是不能信任它能写出任何以事实为基础的东西,因为它仍然在编造事实。
有人估计ChatGPT4的原始训练数据集有45TB的纯文本。这意味着,下一次迭代要想取得ChatGPT4相对于ChatGPT3那样的巨大进步,训练数据集需要达数万TB之巨。即便采用OpenAI存疑的方法,获取和准备如此大量的纯文本数据也很不切实际。然而,就算真用这个数据集来训练人工智能也可能要消耗大量能源,大到这种成本令人工智能变得完全不可行的地步,那怕你是一家非营利组织也不可行。
这么说并不夸张。OpenAI首席执行官山姆·阿尔特曼(SamAltman)九层公开表示,先进的人工智能要想变得可行,需要能源技术取得突破,比如核聚变。可悲的是,就算我们确实实现了核聚变,在本世纪乃至下世纪这种技术也不太可能比我们目前的能源便宜。事实上,任何形式的能源都不会比我们目前所拥有的能源便宜得多。因此,针对人工智能能源问题提出的解决方案具有很大的误导性。
这个观点得到了一些非常严肃的研究的支持。马萨诸塞大学阿默斯特分校曾做过一项研究,他们分析了将图像识别人工智能性能提高到准确率达95%以上所需的计算和能源成本。研究发现,训练这样一个模型将需要花费1000亿美元,其所产生的碳排放量相当于纽约市一个月的碳排放量。请记住,这是针对仍有5%的时间会出现灾难性错误的人工智能而言的。该研究还强调,将准确率提高到99%需要的成本和碳排放还会成倍增加。
这就是为什么特斯拉永远不会用当前的方式开发全自动驾驶汽车的原因所在。他们的Autopilot和FSD只能通过这种人工智能计算机视觉来感知周围的世界,而FSD要想实现全自动驾驶,其图像识别精度需要接近100%的准确度。正如那项研究所表明那样,要想让特斯拉的人工智能变得那么好,其所需要的资金也许远非特斯拉能负担得起。
换句话说,除非人工智能行业能够找到一种更高效的方法来提高训练人工智能以及计算负载的效率,否则就无法突破这个限制,然后人工智能的发展就将完全停滞。目前可能的解决方案即将出现,比方说结合了模拟与量子技术的更高效的人工智能硬件,以及需要训练数据集个更小的新的人工智能架构。不过,这些概念仍处在起步阶段,距离应用到现实世界可能还需要几十年的时间。
简而言之,大家得有个心理准备,未来几年人工智能的发展肯能会大幅低于预期。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】