DVPS:通过与现实世界的直接互动重新思考多模态人工智能

DVPS:通过与现实世界的直接互动重新思考多模态人工智能

TLDR : TLDR原文:Translated,一家专注于人工智能语言解决方案的意大利公司,将领导由“地平线欧洲”资助2900万欧元的欧洲DVPS研究项目。项目目标是探索基于与物理世界直接互动的多模态人工智能学习新途径,结合语言、空间感知、感官信号和视觉。

Translated,总部位于罗马的公司,专注于语言解决方案和基于人工智能的翻译,将领导即将于7月1日启动的欧洲DVPS研究项目。这个雄心勃勃的计划在“地平线欧洲”框架内获得了2900万欧元的支持,聚集了来自9个国家的20个合作伙伴,围绕一个共同的愿景:探索一种基于与物理世界直接互动的多模态人工智能学习的新途径。

推动多模态基础模型的科学与工程进步

其名称DVPS,意为“Diversibus viis plurima solvo”,即“通过不同的路径解决多个问题”,反映了这一雄心壮志。当前的模型依然依赖于来自文本、图像或视频等静态数据——即世界的表现形式,而DVPS计划更进一步。通过结合语言、空间感知、感官信号和视觉,项目试图使人工智能更接近于一种植根于现实的理解。
Translated的联合创始人兼首席执行官Marco Trombetti强调:
“大型语言模型标志着一个突破,但它们的局限性显而易见:它们依赖于固定的架构,仅从数字世界中人类创建的静态内容中学习。为了更进一步,人工智能需要与现实世界实时互动。通过DVPS,我们赋予机器通过直接经验成长的能力,并能够立即共享它们之间的学习。”
在项目框架内开发的多模态基础模型(MMFM)将引入三个方法论突破:
  • 标注效率:通过迁移学习和少样本适应,模型可以用少量标注数据进行训练,从而减少对手动标注数据集的依赖;
  • 计算重用:通过大规模预训练,它们将降低下游应用的计算成本,从而为更可持续的发展铺平道路;
  • 工程效率:自动化模型设计将减少每个新任务或领域对高度专业化专业知识的需求。

三个首要应用领域:语言学、心脏病学和地理智能

项目旨在应对的挑战之一是,在涉及多个发言者的同声传译中,在嘈杂或非结构化环境中实现实时上下文理解。
在这种情况下,人类会自发地动用一系列非语言线索:目光方向、声音空间化、身体定向。目前的系统难以重建这一背景。通过结合计算机视觉、空间声音分析和手势解释,DVPS开发的模型可能为能够更好适应现实情况的语言助手铺平道路。
在医疗领域,项目计划通过先进医学影像生成心脏的3D建模来帮助实现心血管风险的早期筛查。在环境管理领域,其目标是通过卫星和地面数据的聚合来改善对自然灾害的响应,例如预测洪水。

围绕关键工具的结构化项目

最终目标是为欧洲研究界奠定坚实的科学基础。为了支持这一愿景,DVPS将设计三个基本模块:
  • AutoDVPS:一个用于设计和扩展MMFM的开源工具箱。它将在三个初始应用领域中进行测试,以及两个尚未定义的领域,这一策略旨在评估模型在其设计假设之外的泛化能力。
  • DVPSBench:一个专注于这些模型的鲁棒性、性能和伦理考虑的比较分析套件;
  • DVPS-FM:一个基于多种大规模模态形成的基础模型。
项目还计划出版《MMFM原则与实践》手册,并推出一个MOOC课程,旨在培训超过1500名学习者。为了激发创新和协同效应,计划与其他欧洲人工智能计划进行15次合作,并建立一个汇集学术界和工业界的联合创新实验室。
服务于欧洲技术主权的集体动态
DVPS的创始团队由70名来自以下合作伙伴的顶级欧洲人工智能科学家组成:
  • 学术研究:牛津大学、阿兰·图灵研究所、洛桑联邦理工学院、苏黎世联邦理工学院、伦敦帝国学院、布鲁诺·凯斯勒基金会、卡尔斯鲁厄理工学院、巴塞罗那大学和比利时弗拉芒技术研究院
  • 专业合作伙伴:海德堡大学医院、瓦尔德赫布龙研究所、阿姆斯特丹大学医学中心、Deepset、Sistema、MEEO、Lynkeus、Data Valley和Pi School of AI
  • 高性能计算:Cyfronet,波兰国家高性能计算中心