奥多码,点击查看详情 97CDN云盾,点击查看详情

mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03

mini-gpt4o来了? 能看、能听、会说,还情感丰富的多模态全能助手emova

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:li= | g P m = 9yazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin3 } 1 # F S ~.com

本文作者来自香港科技大学、香港大学和华为诺亚方舟实验室等机构。其中第一作者陈铠、苟耘豪、刘智立为香港科~ ( U 6 L X技大学在读博士生,黄润辉为香港大学在读博士生,谭达新为诺亚方舟实验室研究员。

随着 OpenAI GPT-4v b 3 # vo 的发布,大语言模型已经不再局限于文本处理,而是向着全模态智能助手+ ! H :的方向发展。这篇论文提出了 EMOVA(EMoto 0 Tionally Omni-present Voice Assistant),一个能够同时处理图像、文本和语音模态,能看、能听、会说的多模态全能助手,并通i 9 L过情感控制,拥有更加人性化的交流能力。以\ 9 3 = f下,我们将深入了解 EMOVA 的研究背景、模型架构# } ] d &实验效果。

[详细内容](https://mp.weixin.qq.com/s?__biz=MzA3MzI4M@ Q r & \jgzMw==&midi q # S +=2650936793&idx=3&K I 4 @sn=55e737d060d80fed7c3f69797403dcf3&chksm=84e7d1a7b39058b1f1f0f53f& g 0 r ` ; X 2d73dbefef7b63c31599e5260f58487bc87c9614be1f8c1179c9d&token=554618254&lang=zh_CN#rd)

mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA

论文题目:EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion_ o x b *论文地址:https://arxiv.org/abs/2409.18042项目网页:https://emova-ollm.githubO X S b.io/研究背景:全模态交互的挑战近年来,多模态大模型P E L 3得到广泛关注,尤其是可以同时处理视觉和语言信息的模型,如 LLaVA [1] 和 Intern-VL [2],或者语音文本交互的模型,如 Mini-Omni` C s U \ [3]。然而,当前的研究多偏向于双模态组合,要让大语言模型在 “看、听、说” 三个方面同时具备优越表现依然充满3 # – 4 5 V T挑战。传统的解决方案D x { G往往依赖外部语音生成工具,无s a [法实现真正的端到端语音对话。而 EMOVA 的出现填补了这个空U E D C ] &白,在保持图文理解性能不下降的前提下,让模型具备情B n 1 { 6 t J S ~感丰富的语音交流能力,实现了一个全能型、情感丰富、能看能听会说的智能助手。模型架构:情感对话与多模态理解的有效结合EMOVA 的架构如图一所示,它结合了连续的视觉编码器和离散的语音分词器,能够将输T l =入的图像、文本和语音信息进行( w z F Y ~高效处理,并端到端生成文本和带情感的语音输出。以下是其架构的几个关键点:1. 视觉编码器s _ d n t –:采用连续的视觉编码器,捕捉图像的精细视觉特征,保证领先的视觉语言理解性能;2. 语音分词器:采用了语义声学分离的语音分词器: m M Q,将输入的语音分解为语义内容(语音所表达的意思)和声学I F P b n D l风格(语音的情感、音调等)。这种设计将语音输入转化为 “新的语言”,不仅降低了语音模态的合入难度,更为后续个+ = f V 0 p性化语音生成以及情感注入提供了灵活度;3. 情感控制模块:引+ W – 8 X入了一个轻量级的风S v Y z t o ` F格模块,支持对语音情感(如开心f O L 9 U + # o R、悲伤等)、说话人特征(如性别)、语速、音调的控制,在保持语义不变的情况下,根据对话上下文动态调节语音输出的风格,使人机交互更加自然。

mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA

对齐k i ( h M方法:开源双模态数据实现全模态对齐

EMOVA 提出了数据高效的全模态对齐,以文本模态作为媒介,通过公开可用的图像文本和语音文本数据进行Q – q & I H全模态训练,而不依赖稀缺的图像 – 文本 – 语音三模态数据。实验发现:

  1. 模态间的相互促进:在解耦语义和声学特征的基础上,语音文本数据@ ] }和图像文本不仅不会相互冲突,反而能够互相促进,同时提升模型在视觉语( = [ + D g l _ u言和语音语言任务中的表现;
  2. 同时对齐优于顺序对齐:联合对齐图像文本和语音文本数据的效果明显优于顺序对齐(先图像文本对齐,再语音文本对齐,或反之),有效避免“灾难性遗忘”;
  3. 全模态能力激发:少量多样化的全模态指令微调数据,可以有效激发模型面对H L W M图像、文本和语音组合指令的响应能力和遵从性。

这种双模态对齐方法利用了文本作为桥梁,避免了全模态图7 8 1 D n C w 6文音训练数据的匮乏问题,并通过联合优化,进一步增强了模型的跨模态能力。

mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA

图二:全模态同时对齐提升模型在视觉语言和语音语言任务中的表现

实验效果:性能领先,情感丰富

在多个图像文本、语音文本的基准测试中,EMOVA 展现了优越的性能:

  1. 视觉理解任务:EMOW C : N 8 d ? ! gVA 在多个数据集/ f B 9 s D上达到S c E f z了当前的最佳水平,l z r P特别是在复杂的图像理解任务中表现尤为突出R c e H,如在 SEED-Image、OCR Benchh V } P B X [ 等榜单的性能甚至超过了 GPTh 6 M-4o;
  2. 语音任务:EMOVA 不仅在语音识别任务上取得最佳性4 9 ( + 6 8 & M能,还能生成情感丰富、自然流畅的语音,展示了其语义声学分离技术和情感控制模块的有效性;

总的来说,EMOVA 是首个能够在保持视觉文本和语音文本性能领先的同时,支持带有情感的语音对话的模型。这使得它不仅可以在多模态理解场景表现出色,还能够根据用户的需求调整情感风格,提升交互体验。

mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA

图 3 Eo _ W @ V L }MOVA 在视觉文本和语音文本任务上的性能测试

总结:为 AI 情感交互提供新思路

EMOVA 作为全模态的情感语音助手,可实现端到端的语音、图像– 5 d h ^ 5 * R Q、文本处理。通过创新的语义声学分离L y { p K 1 P C和轻量化的情感控制模+ M t % l 8 D /块,展现出优越的性能。EMOVA 在实际应用和研究前沿都具有巨大潜力,为未来 AI 提供了更加人性化的情感表达新思路。

参考文献:

[1] Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2024). Vi! t A H ( ; W \sual instX q T :ruction tuningP ? ( ? . E ^ :. In NeurIPS.
[2] Chen, Z., Wu, J., et al. (2024). InternVL: Scalif T Ang up vision fox / R $ I ; N !undation models and aligning for generic visual-linguistic tasks. In CVPR.
[3] Xie, Z., & Wu, C. (2024). Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming. arXiv preprin& r 7 Lt arXiv:2408.16725.

以上就是mini-GPT4o来了?r B H F Q J f 能看、能听、会说,M : h R还情感丰富的多模态全能助手EMOVA的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/117692.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2024-12-25 12:50
下一篇 2024-12-25 12:50

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。