非科幻思考(第4/18页)
如果是一个人,会如何回答这个问题呢?人会觉得这个问题太简单了啊,店员有可能会直接去追,因为要把店里的商品追回来;也有可能会打电话报警,因为自己不想冒险;或者告诉老板;或者喊路人帮忙。诸如此类。
但是目前的人工智能会觉得这个问题很难,无法回答。原因主要在于以下几个方面:
第一,是综合认知的能力。
第二,是理解他人的能力。
第三,是自我表征的能力。
为什么人工智能会觉得这些问题难?我们一个一个看。
第一个难点,综合认知的能力。
这个问题对于我们每个人而言都是非常简单的,头脑中甚至一下子就能想到那种画面感。但对人工智能来说就是很难理解的。为什么?
最主要的差别在于常识。
当我们理解这段话,我们头脑中实际上是反映出很多背景信息,包括:(1)他想喝酒;(2)他没有付钱;(3)酒摆在超市是一种商品;(4)从超市拿东西需要付钱;(5)他没有付钱就出门是违规的;(6)他是想逃跑;(7)超市店员有义务保护超市商品,不能允许这种事情发生。在所有这些背景信息支持下,我们可以一眼辨认出这个动作画面的情境。除了我们自然脑补的这些背景信息,也还是有一些小概率背景信息,有可能影响对情境的解读。也许这个人是店主,有急事出门,如果是店主,自然不用付钱,店员也不会见怪,但这种可能性不大。任何一个情境的解读都需要大量常识作为背景信息。
常识包含我们习以为常的知识总和,包含我们对整个环境和经济系统的理解。这些理解都太平常,我们就称之为常识。人工智能目前还没有这些常识,它并不知道一瓶酒摆在超市里和公园里有什么差别,也不知道超市买东西的惯例流程。从语法上说,从超市拿酒和从公园拿酒都是符合语法的表达,但我们知道,其中一个合理,另一个不合理。
你也许会说,这是因为机器缺少生活经验,输入经验就可以了。我们这一次当然可以给机器输入酒的含义、超市的含义、超市的购买规则、小偷的含义、店员的职责,但好不容易输入了所有这些信息,会发现下一句话涉及大量有关街头和交通的常识,依然要手动输入。到了最后,整个世界的无数知识碎片我们都需要输入,如何调用又成了问题。
“常识”经常被认为是区别AI和人的重要分野。“常识”是把各个门类信息汇集到一起、形成广泛知识背景网的能力。这种能力我们人人都有,因而并不觉得稀奇,然而机器没有,我们才知道其可贵。
为什么机器难以具有常识?有多重原因,目前人们仍在尝试去理解。首先的直接原因是,机器缺少物理世界的生活经验,所处理的是人类的二手信息,对于周围的物理世界没有真实接触,不知道什么是可能的,什么是不可能的。例如,“石头放在鸡蛋上”还是“鸡蛋放在石头上”只是词语游戏,对于AI没有真实意义。AI也不知道人绕房子一周会回到原点。
对于这个原因,我们可以想出技术上的解决方案,一个是制造更精细的真实的机器人,让机器人在物理世界里不断探索,最终把物理世界的常识都记录到心里,这种可能性的问题在于机器人本身制造的困难(具体有哪些困难后面再说);另一个可能的方案是让人工智能的虚拟人物在虚拟世界里生活,只要虚拟世界本身的物理特性完美仿照真实世界,虚拟人是有可能学会知识的。只是,这个方案首先需要一个能够完美感知和识别虚拟世界物体的虚拟大脑,目前的人工智能“仿脑”技术还做不到这一步。
除了缺乏直接的物理世界的经历,还有可能是更核心的原因,那就是人工智能目前还缺少建立“世界模型”的综合能力。
人类拥有“完形”认知的心理能力,能让我们把碎片信息编制完整。这是一种高度统合的能力,我们能把躯体五感统合起来,共同构成对世界的感觉。同样,人从各个方面得到的碎片知识也有一种统合的能力,大脑会把碎片粘贴起来,把碎片之间的部分补齐,以期构成一个完整的知识世界。
事实上,人的“完形”并不仅是“拼凑”碎片信息,而是建立一个模型,然后用模型来理解碎片信息。“完形”是把信息连接成可以理解的图景。中间有大片空白我们要“脑补”。我们能从验证码的碎点图片中看出连贯的字母,而计算机程序做不到。我们能把没有关系的人连接在同一个故事里,只需要想象一两重关系,就能组成复杂的阴谋论。