为什么
-
HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码
一个有效的复杂系统总是从一个有效的简单系统演化而来的。——John Gall 在 Transformer 模型中,位置编码(Positional Encoding) 被用来表示输入…
-
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
DeepSeek 又出手了,这次又是重磅炸弹。 昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持…
-
生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊
作者 | 邵斌团队编辑|ScienceAI2024 年 10 月 30 日,北京理工大学邵斌教授团队在《Nature Communications》杂志上发表了题为:《A long…
-
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
研究表明,你训练的 token 越多,你需要的精度就越高。 最近几天,AI 社区都在讨论同一篇论文。 UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。 CMU 教授 …
-
LoRA、完全微调到底有何不同?MIT 21页论文讲明白了
本文旨在了解两种微调大型语言模型方法之间的差异:完全微调和低秩自适应 (lora)。这两种方法都用于将预训练模型适应特定的下游任务,但它们却有所不同。 微调(Fine-tuning…
-
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律! 自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Y…