2023-06-26
近期,在人工智能框架生态峰会2023上,中国科学院自动化研究所所长徐波正式发布了“紫东.太初”全模态大模型,实时展示了大模型在音乐理解与生成、三维场景导航、信号理解、多模态对话等多项强大功能。
据了解,“紫东.太初”全模态大模型是在千亿参数多模态大模型“紫东.太初”1.0基础上升级打造的2.0版本。其在语音、图像和文本三模态的基础上,加入了视频、信号、3D点云等模态数据,突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力。
从多模态走向全模态 认知能力是关键
2019年开始,中科院自动化所在语音、文本、图像等单模态大模型研究和应用基础上,瞄准多模态大模型领域开始联合攻关。2021年正式发布了千亿参数多模态大模型“紫东.太初”1.0,助推人工智能从“一专一能”迈向“多专多能”。
徐波表示,人类的学习跟交互都是利用多模态进行的,要实现更高水平的智能,必须具备多模态能力。因此,“紫东.太初”大模型一开始就是沿着多模态的技术路线在进行。
“‘紫东.太初’1.0大模型不断加强应用的过程中,我们发现了很多新的需求。比如从工业智能角度来看,有很多像温度、湿度、压力、液位测量等参数需要处理。从医疗场景看,有很多体检结构数据还有异构医疗影像数据等。通过分析这些结构化和非结构化的数据,我们认识到,只有对这些数据从简单的采集、统计、分析上升到对这些数据的认知,才能真正把我们带向智能化社会,也才能在更宽、更高的维度上认知世界、改变世界。”徐波提到。
因此,抓住“认知能力”这个牛鼻子,“紫东.太初”2.0全模态大模型实现了全方位升级。从技术架构上实现了结构化和非结构化数据的全模态开放式接入,突破了多模态分组认知编解码技术、认知增强多模态关联技术等,多模态认知能力大幅提高。
整合多方资源 探索通用人工智能产业化路径
会上,徐波展示了“紫东.太初”全模态认知大模型透过《月光曲》畅谈贝多芬的故事,以及在三维场景里实现精准定位,通过图像与声音的结合完成场景分析。
相较“紫东.太初”1.0大模型,2.0着力提升了决策与判断能力,实现了从感知、认知到决策的跨越。这意味着在实际应用场景中,它将能够为行业创造更大价值。
提及“紫东.太初”全模态大模型当前在行业中的应用,他提到,在神经外科手术导航、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域已开启了一系列引领性、示范性应用。
特别是在医疗场景中,“紫东.太初”大模型部署于神经外科机器人MicroNeuro,可实现在医疗手术中实时融合视觉、触觉等多模态信息,协助医生对手术场景进行实时推理判断。此外,通过与北京协和医院合作,利用“紫东.太初”较强的逻辑推理能力,正在尝试解决人类罕见病诊疗这个挑战性医学领域。
值得一提的是,“紫东.太初”大模型以中科院自动化所自研算法为核心,以昇腾AI硬件及昇思MindSporeAI框架为基础,由武汉人工智能计算中心提供算力支持。
徐波表示:“我们在大模型的技术研究基础上进行开放服务平台开发,希望整合产学研资源打造多模态人工智能行业应用,探索通用人工智能产业化的路径。”
下一步,中科院自动化所以“紫东.太初”全模态大模型为基础,将持续探索与类脑智能、博弈智能等技术路径的相互融合,最终实现可自主进化的通用人工智能,并将探索在更多领域发挥赋能价值,为促进我国数字经济快速发展贡献力量。
(瞭新社)
特别声明:本站转载或引用之图文若侵犯了您的合法权益,请与本站联系,本站将及时更正、删除。版权问题及网站合作, 请通过瞭望新时代邮箱联系:lwxsd@liaowanghn.com