智能环境技术：计算机善解人意的关键（上）

【美国《科学美国人》月刊４月号文章】题：智能环境（作者　麻省理工学院媒体实验所感性计算研究室主任亚历克斯·彭特兰　）
请设想一下，一所房屋能时刻知道你的子女在家中什么地方玩耍，并且能在你的子女遇到麻烦的时候告诉你。或者一间办公室能知道你何时有重要会议，使你不受到打扰。或者一辆汽车能感觉到你已经疲倦，提醒你把车停到路边休息。科学家们长久以来一直试图设计能够具有上述优点的计算机系统。尽管科学家作出了种种努力，但现代机器仍然无法取代照看婴儿的人或秘书的作用。然而，机器今后将能够做到这一点。
在我看来，问题是我们目前使用的计算机既听不见也看不见，它只能通过键盘或鼠标感知世界。即使是能够处理音像信号以及文本的多媒体机器，也只是能传输一系列数据。它不懂得由它传输的文字、声音和图像所代表的意思。我认为，计算机必须能够看见和听见人的行动语言才能证明它真正有用。而且，计算机还必须能像人一样辨认出我们是谁，必须能感觉到我们在思考什么问题。
为了实现这一目标，我在麻省理工学院媒体实验所领导的研究小组前不久研制了几台用于识别人的面孔、表情和姿势的计算机系统。这项技术使我们能够建造在某种程度上发挥像上面提到的房屋、办公室和汽车具备的作用的环境。我们在这些智能环境中安装了摄像机和话筒，把记录下来的图像和声音传送到附近的计算机网。计算机对在智能环境中的人所说的话和所做的事作出评估。由于有了这种技术，人们无需使用键盘或传感器，只需通过动作、声音和表情就能控制计算机程序，浏览多媒体信息或进入虚拟现实领域探索。
这项技术的关键之处在于：由于智能环境对置身其间的人有所了解，因此它能聪明地对人作出反应。１９９１年帕蒂
·梅斯和我带领研究生特雷弗·达雷尔和布鲁斯·布隆伯格在麻省理工学院建成了第一个智能环境。这项研究计划很快发展成为协作试验，如今已在世界范围建立了５个全部由电话线路相连接的智能环境，其中三个在波士顿，一个在东京，一个在伦敦。还计划在巴黎、纽约市和达拉斯建立同样的智能环境设施。
每个智能环境有好几台机器，每台机器的功能都不超过一台个人计算机的功能。这些机器能解决不同的问题。比如说，如果我们要求某个智能环境对图像、声音和动作进行分析，就给它配备三台计算机，每台计算机负责一项分析任务。如果需要它具备更大的分析能力，就增加计算机。虽然计算机负责的分析任务各不相同，但它们都依靠同样的统计方法，即最大相似性分析方法：计算机把收到的信息与它储存的模型作比较。它根据所储存的每个模型计算输入的信息的相同概率，最后选出最相似的信息。通过这样的比较，我们的智能环境机器能回答关于它的使用者的一系列问题，包括它的使用者是谁，有时甚至能回答它的使用者想做什么的问题。什么地方？
要想使智能环境能够知道人们在做些什么，它就需要首先确定置身其间的人的位置。为此，达雷尔和我以及研究生克里斯托弗·雷恩和阿里·阿扎巴耶贾尼研制了一个取名“寻人器”的系统，它能跟踪在智能环境中走动的人。寻人器同我们研制的其他系统一样，也是采用最大相似性分析法。是谁？如何找？
智能环境不仅要知道人在什么地方，还应当知道他们是谁，在说什么。许多人发明了能使计算机懂得人讲话的规则系统。所有这些系统实际上只有在使用者带着话筒或者置身其附近时才会起作用。如果某个环境只有当你站在某个特定位置的时候才能理解你的动作，似乎算不上是智能环境。因此，研究生萨米特
·巴苏、迈克尔·凯西和我采用另一种方案——让计算机能在某人在某个环境（甚至是相当吵闹的环境中）自由走动的情况下，解读这个人讲话的意思。
我们最终制造出来的产品具备了寻人器时刻跟踪使用者位置的优点。这种语音识别系统通过电子手段“操纵”一系列固定位置的话筒，使话筒只放大从使用者的口中发出的声音。什么？
辨认某人的面孔、表情和讲话只是第一步。要使上面提到的房屋、办公室和汽车等智能环境对我们有用，必须使它们能把这些基本感知能力连贯起来。对相同的动作可以作完全不同的理解，这就取决于每个人在做同一个动作时的意图是什么。例如，人们在开汽车的时候，为了使速度慢下来，有时会把脚从油门踏板上挪开，但是在汽车转弯的时候也会把脚从油门踏板上挪开。两者之间的区别是，在汽车转弯时，司机在把脚抬离油门踏板的同时，还会转动方向盘。因此，计算机系统需要分析人的动作在一定的时间里发生了什么变化，再加上其他动作变化，就能时刻知道人在做什么。
我们在设计这样的系统的过程中借鉴了从事语音识别研究的科学家们的设想。他们把每个单字作为连贯的声音即他们所称的内在状态建成模型。每个字都具有独特的内在状态概率函数，内在状态有时是音素，有时只是音素的组成部分。计算机系统通过对每个字所包含的连贯声音同字的模型加以比较，然后选出最相近的字。
我们对这种方法作了归纳，以期能根据人们的行为判断其意图。例如，我们设计的一种计算机系统能判断出某个人伸出一只胳膊是在指向某处还是仅仅为了伸展一下。这个系统通过参照一个有三种内在状态的模型来识别伸展动作：伸出手、保持稳定状态、迅速收回。这个系统视伸展为一种连续动作。通过观察以加速手的动作及运动方向为特点的内在状态，我们的这个系统能判断出某人在做什么。
我们迄今为止已制造出好几个以这种方式解释人的行为的不同系统。最简单的系统可以让人用身体控制虚拟环境。分别由梅斯和我本人领导的两个小组共同研制的人工生命交互式电视环境就属于这样的系统。（上）