2021-10-25
在生物进化的过程中,动物会随着周围环境的变化而变得越来越聪明。比如,蜘蛛凭借自身独有的优势编织蜘蛛网、海狸通过甩动它们宽阔的尾巴发出预警、乌贼将自身气囊里储存的“墨汁”释放出来躲避危险。
受此启发,斯坦福大学计算机科学系李飞飞教授团队制备出一种深度学习“游乐场”,并首次对“鲍德温效应”进行了验证。即在模拟进化实验中,这种深度学习系统可以快速地筛选出学习效率更高的形态,使生物在晚年学到的行为,在后代生命的早期实现表达。
图|深度进化强化学习通用框架(来源:Nature Communications)
这些动物通过利用它们在进化中形成的优势学习平时难以完成的任务,其智力表现也显著提高。然而,环境的复杂性、进化形态和智能控制可学习性之间关系的原则仍然难以实现。
相比之下,人工智能主要专注于语言、视觉或游戏等领域的虚拟认知。
该研究成果重点介绍了人工智能深度进化强化学习的“游乐场”(Deep Evolutionary Reinforcement Learning,DERL)计算系统。该系统可以在复杂的环境下学习极具挑战的运动和操作任务,以进化出不同的代理形态[1]。
10月6日,相关论文以《通过进化与学习实现智能》(Embodied intelligence via learning and evolution)为题,发表在Nature Communications上。
图|相关论文(来源:Nature Communications)
该论文由美国斯坦福大学计算机科学系教授李飞飞、硕士研究生阿格里姆·古普塔(Agrim Gupta)担任共同通讯作者。
图|李飞飞(来源:资料图)
李飞飞称:“我们平时所说的‘智力’是人脑和神经元的一种功能,将智力视为物理上体现的东西是另一种范式。”
该团队表示:“通过 DERL 计算框架阐明环境的复杂性、进化形态和智能控制可学习性之间的一些原则。”然而,实现该目标的先决条件之一是能够同时在环境、形态和控制这三个复杂轴上做功能扩展。
图|DERL 概述(来源:Nature Communications)
为了解决这一具有挑战性的问题,该团队通过模拟达尔文进化的交织过程来搜索形态,并且设置了一个可以将简单模拟生物(Unimal)放在虚拟空间。然后,随机选取几个样本让 Unimal 在平坦和崎岖的地形上行走,观察从一端到另一端的运动轨迹。
当模拟实验结束后,选择一个 Unimal 让其与别的同等条件下经历过训练的 Unimal 进行竞争,获胜的一方与上一代 Unimal 执行类似动作之前,肢体或关节会产生一次突变。
该团队在对 4000 个不同的模拟生物实验模拟后发现,存活后的 Unimal 发生了多代改变。从生存到进化的过程中,“学与做”并非同步进行,而是在平坦和崎岖的地形中边学边做。
图|多环境下的动力进化(来源:Nature Communications)
在爬行的过程中,这些“角斗士”真正展示了他们前进的勇气,学会在复杂多变地形上行走的 Unimals 比平坦道路的同类更容易学习新任务,并且具有更好的表现状态。
图|进化后的 Unimal 形态(来源:Nature Communications)
在寻求复制和增强生物智能的人工智能领域中,人们更多地关注在非实体化的学习方法,相比之下,具有适应特定环境的形态可以较大程度地简化学习智能行为的流程。
在这项工作中,该团队所制备的深度进化强化学习框架向创建智能体迈进了一步。该框架的优势之一是可以找到不同形态解决方案,DERL 使人类能够在扩展进化环境的复杂性方面取得突破性进展。
但是,该团队并不满足于此,他们后期工作的一个重要方向是在物理现实和多智能体的进化环境方面深入研究。
他们还发现一种代理适应度,数代 Unimal 可以通过“鲍德温效应”在复杂环境中进化,从浅层学习能力迅速转移到基因编码形态。这种“鲍德温式”的智力从表现型到基因型的转移已经被验证,包括语言的出现和人类的模仿。
最后,该团队还展示了形态智力和“鲍德温效应”的基础机制,通过增加被动稳定性和更好的能源效率等有利性状来实现更好的能源效率。
图|形态鲍德温效应、能源效率和稳定性的关系(来源:Nature Communications)
未来,在科学技术获得进一步突破时,更多“智慧式“人工智能机器人或将问世。该类机器人并不局限于目前各大商场、园区和银行等服务机构中简单的问候、导航等功能,而是在核反应等极端军事场景、地震等紧急救援和纳米递送等临床应中普遍应用。
(瞭新社)
特别声明:本站转载或引用之图文若侵犯了您的合法权益,请与本站联系,本站将及时更正、删除。版权问题及网站合作, 请通过瞭望新时代邮箱联系:lwxsd@liaowanghn.com