奥多码,点击查看详情 97CDN云盾,点击查看详情

英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03

tokenizer对于图像、视频生成的重要性值得重视。

英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
在讨论图像、视频生成模型时,人们的焦点更多地集中在模型所采用的架构,比如大名鼎鼎的 DiT。但其实,tokenizer 也是非常重要的组件。
谷歌等机构的研究者曾在一篇题为「Language model Beats diffusion – to. B I d ? V C ;kenizer is key to visual gb # L s & c e u Deneration」的论文中证明,一个好的 tokenizer 接入到语言模型后,能够立即获得比当时最好的 diffusion 模型还要好的效果。论文作者蒋路在后$ Y S ` b B来接受采访时表示,「我们的研究可能会让社区意识到 tokenizer 是被严重忽视的一个领域,值得发力去做」。
在图像、视频生成模型中,tokenizer 的核心作用是将连续的、高维的视觉数据(如图像和视频帧)转换成模型可以处* + ; v [ @ Z理的形式,即紧凑的语义 token,它的视觉表示能力对n ? T F C E 3 f n于模型的训练和生成过程至关重要。就像上述论文作者所说,「tokenizer 的存在就是通过建立 token 之间的互联,让模型明确『我现在要做什么』,互联建立得越好、LLMi M ] h # 模型越有机会发挥它的全部潜力。」
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
tokenizer 是生成式 AI 的关键组件,它通过无监督学习发现潜在空间,p 0 \ N T 1t = 7 ] * , _ K V而将原始数据转换为高效的压缩表示。视觉 tokenizer 专门将图像和视频等高维视觉数据转化为紧凑的语义 tok= j Xen,从而实现高效的大型模型训练,并降低推理的计算需求。图中展示了一个视频 token 化过程。
当前,业界有很多可用的开源视频、图像 tokenizer,但这些 tokenizer 经常生成质量不佳的数据表示,这会造成采用该 tP H Sokenizer 的模型生成失真的图像、不稳定的视频。此外,低效的 token 化过程还会导致编解码速度变慢、训练和推理时间^ & ? I v d R % P变长,从而对开发人员的工作效[ – Y J d率和用户体验产生负C n W N面影响。
为了解决这些问题,来自英伟达的研究者开源了一套名为 Cosmos 的全新 tokenizer。英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
  • 研究地址:https://researcB \ K Xh.nvidia.com/labs/di– $ M ~r/cosmos-tokenizer/
  • HuggingFace 地址:https://hw J 5 L X * 2 quggingface.co/collections/nvidia/cosmos-tokenizer-672b93W h { ,023add81b66a8ff8e6
一般来说,tokenR u + ) p Kizer 有两种类型:连y c r 7续型和离散型。连续 tokenize$ } rr 将视觉数据映射为连续嵌入,适用于从连续分布中采样的模型,如 Stable DiffusB B 8 { Iion4 x j g ? 9。离散 tokenizer 将视觉数据映射为量化指数,适用于 VideoPoet 等依赖交叉熵损失进行训练的模型,类似于 GPT 模型。下图比较了这些 token 类型。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
tokenizer 必须兼顾高压缩和高质量,保留潜在空间的视觉N | J R \ P细节。Cosmos tokenizer 是一套全面的连续和离散图像和视频视觉 tokenizer,可提供出色的压缩和高质量重建,速度是以前方法的 12 倍。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
如表 1 所示,它支持各种图像和视频类型,具有灵活的压缩率,以~ D L i d ] L适应不同的计算限制。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
Cosmos tokenizer 基于轻量级时间因果架构,使用因果时间卷积# E M 5 | J B和注意力T # K F + c 6 (层来保持视频帧的顺序。这种统一的设计允许对图像和8 f T Q + \ Q +视频进行无缝 token 化。
英伟达的研究者在高分辨率图像和长视频上训练 Cosmos tokenizer,涵盖不同类别数据的宽高比(包括 1:1、3:4、4:3、9:16 和 16:9)。在推理过程中,它不受时间长度的影响,可以处理比5 \ [ } p % c 8 b训练时间更长的数据。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
  • GitHub 地址:https://y j 5github.com/NVIDIA/Cosmos-Tokenizer
研究者在标准数K ~ O 6 0 k j * |据集(包括 MS-COCO 2017、ImageNet-1K、FFHQ、CelebA-HQ 和 DAVIS)上对 Cosmos tokenizer 进行了评估。为了使视频 tokenizer 评估标准化,他们还策划了一个名为 TokenBench 的新数据集,涵盖机器人、驾驶和体育等类别,并在 GitHub 上公开发布。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
  • TokenBench 地址:https://github.com/NVlabs/TokenBench
结果(图 1)显示,Cosmos tokenizer 明显优于现有方法,在 DAVIS 视频上的 PSNH * v r l v c PR 提升了 4 dB。它的 token 化速度是以前方法的 12 倍O k ] Qt N W h |并能在配备 80GB 内存的英伟达/ K j 5 A100 GPU 上编e 1 x码长达 8 秒的 1080p 和 10 秒的h h U 5 ! u U p 720p 视频。空间压缩率为 8 倍和 16 倍、时间压缩率为 4 倍和 8 倍的预训练模型可在 GitHub 上获取。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
试用过 Cosmos 的 1x 机器人公司 AI 副总裁 Eric Jang 表示,Cosmos 是一个非常好的 tokenizo D – y ~er,比根据他们自己的数据进行微调的 Magvit2 好得多。看来,这个新工具值得一试S 8 l I Q U V
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
以下是 Cosmos 的一些技术细节。
Cosmos tokenizer 架构
Cosmos tokenizer 采用复杂的编码r D ` B P 8 x器 – 解码器结构,旨在实现高效率和高效学习。其核心是采用 3D 因果卷积块,这x h l {是联合处理时空信息的专门层,并利用因果时间注意力捕捉数据中的长程依赖关系。
因果结构确保模型在进行 token 化时只使用过去和现在2 & &的帧,而避免使用未来帧。这对于与许多真实世界系统的因果性6 / c / 5 K V质保持一致至关重( G W t要,例如物理 AI 或多模态 LLM 中的系统。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
Cosmos to+ : ; x u I } #keV L #nizer 架构图。
使用 3D wavel` 5 6 P Qet 对输入s 8 w进行降采样,这种信号处理技术能更有效地表( : = L y w示像素信息。数据处理k , 2 w完成后,通过反向o 8 W ~ wavelet 变1 G { V x换重建原始输入。
这种方法提高了学习效率,使 tokenizer 编码器 – 解码器可学习模块专注于有意义的特征,而不是多余的像素细节P G Q r | E ) Z z。这些技术与其独特的训练方法相结合,使 Cosmos tokenizer 成为了一个高效、强大的架构。
实验结果
定性结果
图 6 显示了使用连续视频 tokeL X b p / ]nizer 重h Q |建的视频帧。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
图 9 显示了使用不同离散图像 tokenizer 重建的图像。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
图 8 则显示了连续图像 tokenizer 的误差图,以突出重建差异。与之前的方法相比,Cosmos tokenizer 能更有效地保留结构和高频细节(如草地、树枝、文本),同时将视觉失真(如人脸、文本)和伪影降到最低。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
这些定P f R { \ 9性结果表明,Cosm3 k 5 9 L P j ! hos tokenizer 能够编码和解码l { S W f . s R各种视觉内容,并有能力保持图像和视频的最高视觉质量。
定量结果
表 2 和表 3 列出了连续和离散视频 tokenizer 在各种基准上的平均定量指标。Cosmos tokenizer 在 488 压缩率的 DAVIS 和 TokenBench 数据集上都达到了 SOTA 性能。即使在更高的压缩率(888 和 81616)下,Cosmos tokenizer 的性能也优于以前的方法,显示了出色的压缩^ Y o C $ $ u s u质量权衡。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
参考链接:
https://developer.nvidix ( N na.com/blog/state-of-the-art-multimodal-gen% m w Oera) C = }tive-ai-model-development-wiJ a V F q @ e .th-nvidia-nemo/
https://research.nvidia.com/labs/dir/cosmos-tokenizer/
https://mp.weixin.qq.co\ \ z 6 ~ (m/s/Hamz5XMT1tSZHKI / : ) h ) ? H /dPaCBTKg

以上就是英伟达开源福利:视频生成( h o f、机器人都能用的SOTA tokenizer的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/119227.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2024-12-30 11:36
下一篇 2024-12-30 11:36

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。