github
-
18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了
中国科学院自动化研究所与美团无人车团队合作,推出全球最大规模的自动驾驶世界模型数据集 drivingdojo,现已入选 neurips 2024 数据集追踪项目。该数据集旨在克服现…
-
字节&北大Nature子刊新成果:自旋本征态的高效精确求解
字节跳动与北大团队在《nature computational science》发表论文,利用深度神经网络高效求解量子激发态 突破性进展: 字节跳动研究部门(ByteDance R…
-
最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景
字节跳动开源全新代码大模型评估基准fullstack bench,全面升级ai编程能力评测标准!该基准涵盖11大类真实应用场景、16种编程语言和3374个问题,远超现有基准,更精准…
-
NeurIPS Spotlight|从分类到生成:无训练的可控扩散生成
斯坦福大学、北京大学和清华大学的研究团队联合推出一项突破性研究成果:无训练指导(training-free guidance,tfg) 框架,为扩散模型的条件生成难题提供了全新的解…
-
推动大模型自我进化,北理工推出「流星雨计划」
北京理工大学计算机科学与技术学院的direct lab启动了“流星雨”研究计划,旨在探索大模型的自我进化理论与方法。该计划的核心思想源于人类个体能力提升的模式:在掌握基本技能后,通…
-
豆包是否会推出开源版本
目前,豆包尚未推出开源版本。该公司尚未明确表示未来计划,原因可能涉及商业利益、技术复杂性、安全性和隐私问题。尽管没有明确的开源时间表,但字节跳动可能会考虑在未来根据市场需求和资源可…
-
ICLR 惊现[10,10,10,10]满分论文,ControlNet 作者新作,Github 5.8k 颗星
iclr 2025 评审现场惊现罕见一幕:一篇论文获得四个满分(10分)!这在平均分仅为4.76的iclr中实属罕见,可谓惊艳全场。这篇论文名为ic-light,出自control…
-
多模态慢思考:分解原子步骤以解决复杂数学推理
中山大学、香港科技大学、上海交通大学和华为诺亚方舟实验室的研究人员提出了一种名为 atomthink 的新框架,旨在提升多模态大语言模型 (mllm) 解决s Y & I…
-
官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake
2024年6月,国内领先的大模型应用kimi携手清华大学madsys实验室,联合发布了基于kvcache的大模型推理架构mooncake。该架构通过pd分离和存算一体化设计,显著提…
-
Scaling Law 撞墙?复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,clip 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。clip 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中, A 6 O…
-
吴恩达出手,开源最新Python包,一个接口调用OpenAI等模型
在构建应用程序时,与多个提供商集成很麻烦,现在 aisuite 给解决了。 用相同的代码方式调用 OpenAI、Anthropic、Google 等发布的大模型,还能实现便捷的模型…
-
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
更新了!带Agent的Cursor太疯狂了
AI 辅助编程工具这条赛道越来越卷了。 新晋 AI 编程神器 Cursor,终于迎来了一次备受关注的版本更新,Cursor 0.43 来了。 新版本最大亮点之一是推出了 Compo…
-
智能体零样本解决未见过人类设计环境!全靠这个开放式物理RL环境空间
当物理推理能力进化后,通用强化学习智能体能在2D物理环境中执行多样化任务了。 在机器学习领域,开发一个在未见过领域表现出色的通用智能体一直是长期目标之一。一种观点认为,在大量离线v…
-
RTX 4090可跑、完全开源,最快视频生成模型问世,实测一言难尽
开源 ai 视频社区又一个重量级选手下场。 这个周末,押注开源人工智能视频的初创公司 Lightricks,有了重大动作。 该公司推出了最快的视频生成模型 LTX-Video,它是…
-
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
开源模型阵营又迎来一员猛将:Tlu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1…
-
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果% k Z您…
-
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
tokenizer对于图像、视频生成的重要性值得重视。 在讨论图像、视频生成模型时,人们的焦点更多地集中在模型所采用的架构,比如大名鼎鼎的 DiT。但其实,tokenizer 也是…
-
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
租用 H100 的钱只需 233 美元。 还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗? 今年 4 月,AI 领域大牛 Karpathy 一…
-
大模型代肝,自动刷《崩铁》升级材料,Claude操纵计算机还能这么用!
大模型的执行力从哪里来? 上个月,Anthropic 推出了升级版的 Claude 3.5 Sonnet。最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、…
-
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…