非科幻思考（第5/18页）

所有研究人类视觉和认知的心理学家都清楚，人类的视觉包含大脑的建构。人类视网膜得到的是二维图像，就像相机的照片一样。但人类的视觉体验绝不仅仅停留在一堆“视网膜照片”上。我们眼前看到的世界直接是三维立体视觉，我们感觉自己清清楚楚“看到”一个三维立体的杯子，“看到”具有纵深的房间，“看到”他人离自己的距离。但实际上，我们是不可能直接“看到”三维物体的，我们眼睛接收的只是平面图，是大脑后台计算还原出的三维立体效果。

我们的眼睛在我们注意不到的情况下不断快速转动，拍摄四面八方的图像，而随着我们身体移动，视网膜上的投影照片也在不断变化。可是我们的感觉接收到的并不是一张张分离的照片，而是一个恒常稳定的周围世界。这是如何做到的？答案并不难，正如“人工智能之父”马文·明斯基所说的：“我们不需要不断‘看见’所有事物，因为我们在大脑中建构了视觉的虚拟世界。”神经学家威廉·卡尔文也曾说过：“你通常观察到的看似稳定的场景实际上是你所建构的一个精神模型。”事实上，我们居住在大脑制造的虚拟现实中。

这个虚拟的模型，就是我们每个人头脑中的“世界模型”。

而很少有人讨论的是，我们心中对这个世界的知识，也像视觉一样，有整体的模型进行综合。

我们对物理环境的理解、对世界运行规律的理解、对社会的理解、对正义的理解，全都交织在一起，构成我们思维的背景。大脑把所有社会感知信号也构造成完整的“世界模型”。我们人与人有很多共享的常识和语境，例如谁是美国总统、被石头砸到会怎样；我们每个人也有独特的“个人世界模型”，例如“男人都是不可靠的”“命运会善待有恒心的人”。这些是我们大脑把各个领域所有知识汇集之后得到的结果，它是思维的语境，就像视觉背景，也是人与世界打交道、沟通的前提。我们的决策是在这样的模型中形成的。

这种综合能力让我们能跨领域认知。我们可以把喝酒、下围棋、钻井和看病的信息放在头脑中的同一个世界，但是对于AI来说，这些专业知识就是四个不相关的领域，要四个AI来分别处理。人的综合认知能力，使知识连成一体，但人工智能目前只能是专业化人工智能，一旦下围棋的人工智能学习了金融知识，就把围棋知识完全忘记了，等它再学习钻井知识，又把金融知识忘记了，这被称为“遗忘灾难”。专业人工智能的知识至少在目前，还无法相互连接构成“世界模型”。于是人类仍然有它们不具备的视野和大局观。

我们的人脑如何具有这样的综合能力和对世界的建构，仍然是一个谜。

第二个难点，理解他人的能力。

即便人工智能未来能够把各个学科的相关知识都学习到，建构起“世界知识体系”，但在理解情境相关的问题时，仍面临如何调用正确信息的问题。当一个人对另一个人生气，应该从他们环境和背景的海量信息中调用哪些知识，来理解他生气的理由？

对人而言，这不成问题，我们能非常容易猜测到，对生气的两个人而言，什么是重要的因素，什么是有可能导致他们愤怒的导火索。这主要是源于我们对人的理解，对我们自己和周围人的理解，我们知道什么样的信息会引人兴奋，什么样的信息会让人沮丧。读心的能力让我们轻易做出推断。

至少目前人工智能还不具备这样的能力。且不说理解复杂的场景，仅仅就“树上蹲着五只鸟，开枪打下来一只，还剩几只”这样的问题，它们也还回答不上来。它们无法推断，鸟儿因为害怕，就会逃走。

正如著名心理学家、语言学家史蒂芬·平克所说：“如果不是建立在一个庞大的关于外部世界以及他人意图的内隐知识结构的基础之上，语言本身并不起作用。”缺乏对于他人心理的常识系统，使得人工智能仍然难以“理解”人类日常的语言。

未来人工智能有可能学会读懂人类的情感和意图吗？

很多人都提到，目前人工智能已经可以精细识别人类的表情，能够读懂人的情绪。是的，人类的情绪属于一种外显图像，是比较容易识别的，这和识别东北虎、识别癌细胞类似，是图像识别的一个范畴。但这和理解人的情感完全是两回事。即便它们未来能从图像上识别出一个人此时的情绪，想要“解释”此人的情绪，也需要远为复杂的对人心的理解。

好书推荐：末日新世界奥特曼格斗进化英雄联盟：我的时代传奇缔造者一枪致命时间陷阱