Token
-
OpenAI的强化微调:RL+Science 创造新神还是灭霸?
openai发布强化微调新方法,或将革新专家模型构建!这项名为“强化微调”(reinforcement finetuning,rft)的技术,仅需少量数据(P ` f 8 n z …
-
华为云华东(青岛)数据中心宣布开服:继北上广之后又一新云区域枢纽,5ms 光纤网直达山东半岛城市群
华为云青岛数据中心正式开服,成为继北上广之后又一重要云区域枢纽。此次华为云城市大会青岛暨华为云华东(青岛)数据中心开服活动(12月5-6日)L \ + u c *圆满落幕,期间签署…
-
北大字节VAR获最佳论文、厦大清华获亚军,NeurIPS 2024最佳论文出炉
neurips 2024最佳论文揭晓!两篇论文荣获最佳论文奖,两篇荣获最佳论文亚军。本届大会共收到15671篇有效论文投稿,接收率仅为25.8%。 最佳论文奖: 视觉自回归建模:通…
-
NeurIPS 2024|杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性
杜克大学和谷歌研究院的研究人员提出了一种名为自驱动logits进化解码(sled)的新型解码框架,旨在提高大型语言模型(llm)的事实准确性( [ t n j ? | ; M,无需…
-
NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了
上海交通大学与阿里巴巴通义实验室合作,在neurips 2024上发表了一篇关于数学推理场景下分布外检测的论文,提出了名为“tv score”的全新算法。该算法利用动态嵌入轨迹,有…
-
阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型
原文: 本站 11 月 28 日消息,阿里通义千问今天(11 月 28 日)发布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 实验性研究模型,在数学和编程…
-
HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码
一个有效的复杂系统总是从一个有效的简单系统演化而来的。——John Gall 在 Transformer 模型中,位置编码(Positional Encoding) 被用来表示输入…
-
Sora就这么泄露了三小时,网友调侃Altman急拔网线,艺术家们也在抗议被「白嫖」
一觉醒来,挺突然的,sora api 就这么泄露了。 坏消息:三个小时后,OpenAI 就关闭了访问权限。好消息:大家伙把该测的都测完了。 9 个小时前,X 用户 @legit_r…
-
陈天奇团队LLM结构化生成新引擎XGrammar:百倍加速、近零开销
现在,大语言模型的结构化生成有了一个更加高效、灵活的引擎。 不管是编写和调试代码,还是通过函数调用来使用外部工具,又或是控制机器人,都免不了需要 LLM 生成结构化数据,也就是遵循…
-
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
tokenizer对于图像、视频生成的重要性值得重视。 在讨论图像、视频生成模型时,人们的焦点更多地集中在模型所采用的架构,比如大名鼎鼎的 DiT。但其实,tokenizer 也是…
-
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)
扣子 coze openapi 不仅具备低延时、定制化、随时打断和音色克隆等优势,还整合了扣子强大的智能体生态。 基于 AI 的无限游戏最近开始赢得关注a l [,但实际上你现在就…
-
阿里云百炼上线百万长文本模型Qwen2.5 -Turbo,百万tokens仅需0.3元
11月20日消息,阿里云推出最新升级的qwen2.5-turbo模型,现已上线百炼平台。这款模型拥有100万超长上下文处理能力,相当于100万个英文单词或150万个汉字,在多项长文…
-
大模型承重墙,去掉了就开始摆烂!苹果给出了「超级权重」
去掉一个「超权重」的影响,比去掉其他 7000 个离群值权重加起来还要严重。 大模型的参数量越来越大,越来越聪明,但它们也越来越奇怪了。 两年前,有研究者发现了一些古怪之处:在大模…
-
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
本文作者均来自北京大学王选计算机研究所。主要作者包括:林志威,北京大学博士生;王勇涛,北京大学副研究员;汤帜,北京大学研究员。 本文介绍了来自北京大学王选计算机研究所的王勇涛团队的…
-
阿里巴巴:与微信支付合作的潜在用户增量空间很大
分析师问答环节 花旗银行分析师 Alicia Yap: 淘宝“双十一”表现及宏观前景: 今年“双十一”业绩超预期,商家满意度高。 消费券和优惠券主要由平台和商家共同出资。 长期来看…
-
Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer,Transformer从来没有这么灵活过!
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
研究表明,你训练的 token 越多,你需要的精度就越高。 最近几天,AI 社区都在讨论同一篇论文。 UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。 CMU 教授 …
-
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…