ocr

IT资讯

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工…

好易之
2025-01-04
000
IT资讯

豆包的API接口开放了吗

是。豆包开放多种api接口，涵盖文件管理、图像处理、语音识别、ocr等功能，可通过申请api密钥和查看在线文档使用。豆包的 API 接口是否开放？答案：是详细解释：豆包开放…

好易之
2025-01-03
000
IT资讯

NeurIPS2024 | OCR-Omni来了，字节&华师提出统一的多模态文字理解与生成大模型

研究背景与挑战在人工智能领域，赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前，视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现…

好易之
2024-12-25
000
IT资讯

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

Molmo，开源多模态模型正在发力！它也可以从虚拟世界帮你解决现实世界的问题，说一句：「molmo，帮我买杯星巴克的南瓜拿铁。」剩下的就不用动手了，打开外卖网页、点餐、付款，mo…

好易之
2024-12-25
000
IT资讯

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工…

好易之
2024-12-25
000
IT资讯

Mistral首个多模态模型Pixtral 12B来了！还是直接放出24GB磁力链接

训练完就直接上模型。我们都知道，Mistral 团队向来「人狠话不多」。昨天下午，他们又又又丢出了一个不带任何注解的磁力链接。解析一下这个链接，可以看到大k X + y s D…

好易之
2024-12-25
000
IT资讯

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

aixiv专栏是本站发布学术、技术内容的栏目。过去数年，本站aixiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工…

好易之
2024-12-25
000

联系我们

400-800-8888

在线咨询：

工作时间：周一至周五，9:30-18:30，节假日休息

关注公众号