奥多码,点击查看详情 97CDN云盾,点击查看详情

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03

研究背景与挑战

人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一,s X l # x I但在 OCR 领域的多数任务上仍难以达成全面整合。

例如,? L W ^ 5 !Monkey 等视觉语言模型(VLM)擅长文字检测、识别和视觉问答(VQh 6 q ^A)等文本模态生成任务,却无法胜任文字图像& q x ? E Y r p的生成、抹除和编辑等图像模态生成任务。反之,以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此,OCR 领域亟需一个能够统一多模态生成的大模型。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

论文链接: https://arxiv.o? ] ! Frg/abs/2407.16364

代码开源: https://github.com/bytedance/TextHarmony

关键问题

多模态生成的内在矛盾

研究人员发现,多模态] d e C E A r 4生成大模型面临视觉与语言模态之间的固有不一致性,这往往导致模型性能显著下r n _ =滑。如图所示,在文本生成任务上,多模态生成模型相比单模态生成模型\ x l @ 4 [ L &效果降低5T T z E O =%,在图像生成上降低了8%。为应对这一挑战,近期的一些研究n _ |采用了特定模态的监督微调,从而分别优化文字生成和图片生成的模型权重。然而,这种方法与统一视觉理解与生成的初衷相悖。

为解决这一难题,字节跳动与华东师范大学的联合研究团队提出了创新性的多模态生成模型 ——TextHae z 4 x q U & P prmony。该模型不仅精通视觉文本的感知、理解和生成,还在单一模型架构2 ! | ) X i实现了视觉与语言模态生成的和谐统一。

TextHarmony: 突破性贡献

TextHarmony 的核心优势& 4 : X在于其成功整合了视觉文本的理解和生成能力。传统研究中,这两类任务通常由独立模型处理。TextHarmony 通过融合这两大类生成模型,实现了视觉文字理解和生成的同步% # \ W进行} U ` 2 L ; $ ? h,从而统筹了 OCR 领域的多数任务。

研究表明,视觉理解和生成之间存在显著差异,直接整合可能导致严重的模态不一致问题。具体而言,多模态生成模型在文本生成(视觉感知、理解)和图像生成方面,相较于专门的单模态模型,性能出现明显退化。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

数据显示,多模态生成模型在文本生成任务上较单模态模型效果降低 5%,图像e W V生成任务上最高降低 8%。而 TextHarmony 成功缓解了这一问– N z M $ Q题,其在两类任务上的表现均接近单模态专家模型水平。

技术m W 6 / * 9 % ?l Q 9 S D ! k ?

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的组合架构:

1.ViT 负责图像到视觉 token 序列的转换。

2.MLLM 处理视觉 token 和文本 token 的交叉序列,输} W e 4出两类 token:

文本 token 经文本解码器转化为5 & [ 7文本输出。

视觉 token 与文( R 4 _本 token 结合,作为 Diffusion Model 的条件指引,生成目标图像。

这种结] 4 O |构实现了多模态内容的全面理解与生成。

为克服训练过程中的模态不一致问题,研究者提出了 Slide-LoRA 技术。该方法通过动态整合模态特定和模态无K S P U s t ] 2关的 LoRA(Low-Rank Adaptation)专家,在单一模型中实现了图像和文本生成空间的部分解耦。

Slide-LoRA 包含一个动态门控网络和三个低秩分解模块:

模态特定 LoRA 专家聚焦于特定模态(视觉或语言)的生成任务。

模态无关 LoRA 专家处理跨模态的通6 , O i N用特征。

动态门控网络根据输入特征,灵活调M \ M 8 d度不同专家的参与度。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

DetailedTextCaps-100K: 高质量数据集

为提升视觉文x O B V p本生成性能,研究团队开发了 DetailedTextCaps-100K 数据集。该集利用闭源 MLLM(Gemini Pro)生成详尽的图像描述,为模型提供了更丰富、更聚焦于视觉和文本元素的训练资源。l A X D 2

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

训练策略

TextHarmony 采用两阶段训练方法:

1.首阶段利用 MAR: , 0 x 0 QIO-LAION 和 DocStruct4MD s 3 + G . @ c 1 等图文对预训练对齐模块和图像解码器,构建基础的文本生成与图像生成能力。

2.次阶段运用视觉文本的生成、编辑、理解h q c ] G #、感知四类数据进行统一微调。此阶段开放 ViT、对齐模块、图像解码器和 Slide-LoRA 的参数更新,以获得统一的多模态理解与生成能力。

实验评估

研究者对 TextHarmony 在视觉文本场景下进行了全– V s { ( R M面评估,涵盖理解、感知、生成与编辑四个维度:

1.视觉文本理解:TextHarmony 显著优于多模态生成模型,性能接近 Monkey 等专业文字理解模型. a l d _ g

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

2.视觉文本感知:在OCR定位任务上,TextHarmony超过了TGDoc、DocOwl1.5等知名模型。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

3.视觉文本编j , =辑与生成:TextHarmony 大幅领先于现有多模态生成模型,且与 TextDifs r C Mf/ + –user2 等专业模型相当。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

文字生成效果对比

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

文字编辑效果对比

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

文字图像感知与理解可视化

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

总结与展望

TextHarmony 作为 OU 7 ECR 领域的多功能多模态生成模型,成功统一了视觉文本理解和生成任务。通过创新的1 ( : t 0 R A U s Slide-LoRA 技术,它有效[ X R o \解决了多模态生成中的模态不一致问题,在单一模型中实现了视觉与语言模态的和谐: A ] t i统一。TextHarmony 在视觉文字感知、理解、生成和编辑方面展现出卓越性能,为复杂的视觉文本交互任务开T n 3 3辟了新的可能性。

这项研究不仅推动了 OCR 技术的进步,也为人工智能在理解和创造方面的发展提供了重要参考。未来,TextHarmony 有望在自动文档处理、智能内容创作、教育辅助等多L u H R F K Z / 1个领域发挥重要作用,进一步推动人工智能的应用。

以上就是NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大# ! +模型的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/118049.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2024-12-25 13:34
下一篇 2024-12-25 13:35

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。