设想一家批发商店的老板爱丽丝要求她的经理比尔增加销售额,比尔指导他的销售员查尔斯多卖一些收音机,查尔斯弄到了一个可以获利的大单,但是之后公司因为供应紧缺无法交付这些收音机。应该责怪谁呢?爱丽丝有理由惩罚比尔,因为他的工作是确认存货。问题是,查尔斯应该得到奖励吗?从爱丽丝的角度来看,查尔斯的行为让公司蒙羞了。但是从比尔的角度,查尔斯成功地完成了他的销售任务,而且这件事导致他主管的目标没能完成也并不是查尔斯的错。我们可以从两个方面来看这个例子,我们称为“本地奖励”和“全球奖励”。
本地(local) 方案会奖励每个有助于完成主管目标的智能体。所以比尔会奖励查尔斯,尽管查尔斯的行动没能助力实现更高层级的目标。
全球(global) 方案只有在智能体有助于完成最高目标时才给予奖励。所以查尔斯没有得到任何奖励。
发明一台机器体现本地学习方案是很容易的,因为每项任务所获得的奖励只取决于这个智能体与其主管之间的关系。要实施一个全球学习方案就比较困难一些,因为这要求机器找出哪些智能体通过不间断地完成子目标,自始至终都与原始目标保持联系。本地方案对查尔斯比较慷慨,只要他完成了让他去做的事就会得到奖励。全球方案就比较吝啬。虽然查尔斯是按照上级的要求去做的,但除非他的行动同样有助于完成高层级的事业,否则就没有任何功劳。在这样的方案中,智能体往往无法从过去的经验中学到任何东西。也因此,全球方案的学习过程会更慢一些。
两种方案有不同的优势。当发生错误会非常危险或系统时间充裕的时候,使用谨慎的全球方案比较合适。这样会产生更多的“负责”行为,因为它会让查尔斯在一定时间后学会自己检查存货,而不是像奴隶一样遵守比尔的命令。如果出现了错误行动,全球方案不会因为“我只是在遵守主管的命令”而给予谅解。另一方面,本地方案可以一次学到更多不同的东西,因为一个智能体可以不断证明自己达成本地目标的能力,不论它们与思维其他部分的关系如何。当然,我们的智能组有若干个这样的选项。不同的时刻,要采用哪个选项,取决于其他智能组的状态,那些智能组的工作就是向自己学习,要使用哪种学习策略取决于环境。
全球方案不仅要求以某种方式区分哪些智能体的行动帮助解决了问题,还要区分哪些智能体帮助解决了哪些子问题。举例而言,在建塔的过程中,你可能会发现推开某块积木为另一块积木腾出空间很有用。于是你想要记住推开行为有助于建塔,但是如果要以此得出结论,认为一般情况下推开就是一个有用的动作,那你就再也建不成另一座塔了。我们要解决一个困难的问题时,只说某个特定的智能体所做的事对整个事业“有益”还是“无益”是不够的。在某种程度上,人们必须根据本地的环境来判断是好是坏,也就是说,要根据每个智能体所做的工作是如何帮助或阻碍其他相关智能体的工作来判断。奖励一个智能体要产生的效果,应该是让这个智能体的反应在不太妨碍其他更重要的目标的同时,有助于完成某些具体的目标。所有这些都是简单的常识,但是为了更进一步研究,必须澄清我们的语言。我们都经历过追求目标,但经验和理解不是一回事。什么是目标?机器如何获得目标?