新闻中心

天工大模型登顶多模态榜单解决幻觉、跨语言两大难题

日期: 2024-03-04 来源:新闻中心

  现在,其「天工」大模型Skywork-MM又登顶多模态榜单,在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。

  腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全世界内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。

  它通过大型多模态语言模型在涵盖感知和认知任务的14个子任务上的表现来全面评估模型。

  而Skywork-MM只用了不到50M的图文数据——远小于其他大模型(100M),拿下了第一(榜单地址见文末)。

  所谓幻觉,是指多模态大模型在回答问题时,倾向于肯定的答案,即使我们所给的问题中就没有相关特征。

  如果问它“这样的一个男人的头发是什么颜色?”,即使优秀如LLaVA、MiniGPT-4等多模态大模型,也会“睁着眼说瞎话”:黑色。

  比如辨认下面这张图片是“科罗拉多大峡谷还是苏州园林”时,3个双语多模态语言模型:LLaVA、 LLaVA-Chinese、ImageBind-LLm全部回答成前者。

  昆仑万维天工大模型Skywork-MM从分别从数据、模型和训练流程三方面入手。

  如果训练过程中再碰上弱相关的图文数据,模型就更加放飞联想、形成较严重的幻觉。

  为此,天工大模型多模态团队提出以图像为中心,喂给模型既包含正样本也包含负样本的多模态指令微调数据:

  由于“微调指令的文化gap很小”,只需将上面解决幻觉问题中构造的英文指令微调数据翻译成中文使用。

  即通用的视觉特征和语言特征能够最终靠共有的语料进行关联,但是各个语言文化中专有的视觉特征和语言特征的关联需要大量特殊学习。

  为了不让低质量的图文数据影响模型效果,天工大模型多模态团队在设计上选择将视觉模型和大语言模型完全冻结。

  这样做的目的是保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,以及大语言模型的语言能力不损失。

  同时,为越来越好的关联不同文化环境中的视觉特征和语言特征,模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。

  给定一张图像,LVM先提取图像特征,然后将图像特征输入到重采样器中,计算出可为LLM输入的token。

  LLM接收token和指令提示(如果有),然后输出图像描述或对问题的回答。

  此时,很多类型的指令微调数据(包括正样本和负样本)就组成统一的Chat Prompt形式。

  如下表所示,Skywork-MM一共用了大约50M图文数据,这比当前的同类大模型都要少得多。

  但经过以上数据、模型和训练流程三方面的改进,Skywork-MM效果拔群。

  也能听明白一些特殊的指令(根据选项回答问题,根据风景写诗,写广告词,写获奖感言等等);

  孟非没有头发就没有,不会说成黑色;苏州园林、非诚勿扰节目一眼认出;三个物体没有一个是黄色。

  而如开头所示,在与其他模型的横向测试中,Skywork-MM直接荣登MME榜单综合第一,包括感知榜单第一(且与第二名有着43分的差距)、认知榜单第二。

  它一共包含14个子任务,其中感知任务除OCR,还包括粗粒度和细粒度对象识别,前者识别对象的存在与否、数量、位置和颜色;后者识别电影海报、名人、场景、地标和艺术品。

  下表显示Skywork-MM在该榜单感知任务中的OCR+粗粒度识别上的具体得分:

  而除了MME榜单,Skywork-MM还在另一多模态基准MMBench的开发集上表现出色:

  需要注意的是,尽管昆仑万维天工大模型这一最新成果,代表了当前多模态大模型的顶配水平,但它还是存在很多进步空间。

  文化和语言障碍任旧存在,还要求我们开发一种多语言的LVM,更有效地提取不同文化特有的视觉特征,或者再收集更多各语言的大规模、高质量图像文本对,确保模型准确掌握视觉概念和文本概念的关联。

  除此之外,目前的成果只建立在较小规模的基础之上(13B),如果研究更大的多模态模型,我们在使用数据、参数设置、训练策略等方面可能都要进一步探索。

  以及从上面的粗粒度感知识别任务榜单来看,现有所有多模态大模型对于根据图片准确识别物置的能力(对实现机器人感知意义重大)都比较欠缺:

  然而,我们始终相信,在一次又一次的榜单排名更迭之中,属于多模态大模型的“ChatGPT时刻”终将会到来。