一夜之间，大模型像人一样操控电脑了！Claude 3.5重磅升级，抢先OpenAI

几个小时前，Claude 3.5 模型迎来了一波大更新。Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。

其中，升级版 Claude 3.5 Sonnet 的各项能力全面胜过之前版本，| l =其中y t 1 ; X P h z _代码能力提升显著。Claude 3.5 Haiky ~ b , – D lu 的性能则与之前最大模型 Clauy Z }de 3 Opus 的性能相当，同时在成本和速度上与上一代 Haiku 相近。

最值得关注的是，Claude 3.5 Sonnet 版9 o x E U本号虽未提升，但却迎来了L 4 @史诗级大更新：能像人一样使用计算机了C \ A $ & $ a @ g！

最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息，模仿人类与计算机的交互方式。

Anthropic 表示，Claude 3.5 Sonnet 是首个提供「计算机使用」能力公开 betat 1 M 测试的前沿 AI 模型，不过其也指出目前该工具还处于实验阶段 —— 有时候会很麻烦且容易出错。目前这个功能更多地是面向开发者，以便获得他们的使用反馈。

一夜之间，大模型像人一样操控电脑了！Claude 3.5重磅升级，抢先OpenAI

^{目前，「使用计算机」功能已经有了公开测试版{ | b，大家可以申请试用。申请表单：https://docs.googleJ * l 3.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform}

该功能发布后，网友纷纷点赞，都表示迫不及待想要尝试这个功能；当然也有网友对 Claude 3.5 Sonnet 依然使用原来的名称表达了深深地不解：「为什么这么大的更新却连模型版本号都不改一下？」

并且发布不过几个小时，就已经有开发者尝试了 Claude 3.5 Sonnet 的这项新能力。网友 Mckay Wrigley 表示通过 API 使用这项新功能，设置时间不超过 10 分钟，而这项能力却能为 AI 开启无限O { Y f可能，堪称M s Y , [ D game chaq F `nger。

顺带一提，在 Anthropic 更新 Claude 3.5 的同时，热门 AI 编程工具 Cursor 也已经成功接入 Claude 系列模型。根据许多网友分享的截图，接入 Curh { E * \ }sor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本！

另外，对于官方博客中缺少的与 OpenAI 1 模型的性能对比，也已经有研究者抢先完成了。根据{ a C } Z /研究者 Austin Stark: B m ( w & \ ^s 的实验，最新版 Claude 3.5 Sonnet 的性能表现优于 OpenAI 1-mini。他自己也对这一结果深表震惊。

^{详细报告请访问：https://medium.com/@austin-starkh ? % c / x Cs/claudes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea}

让 AI 使用计算机有什么用？

为什么说这个功能很重要？我们知道，现@ o q = K j代的大量工作都是通过计算机完成m , i X 8 e x ]的。Z % % e – 5 R如果能让 AI 像人类一样直接与计算机软_ l U 6 R件交互，将解锁大量当前一代 AI 助手无法实现的应用。

过去几年，强 AI 已经实现了i C Y i ? 7 N + y一个又一个里程碑，举个例子，现在的强 AI 已经有能力执行复杂的逻辑推e g , E X $ e理和理解图像内容。下一个前沿就是使用计算机，AI 模型不必通过定制工具进行交互，而是能够遵照指示使用几乎任B , d b { W m /何软件。

Anthropic 表示，他们之前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。

操作计算机需要查看和解释图像的能力 —— 这里的图像就是指计算W 1 B机屏幕。它还; T v \ q U需要推理能力，以了解以怎样的方式在什^ 4 |么时间执行特定的操作。整合这些能力后，Claude) 8 | [ R H Y ~ 便可具备解n u Z | J 8 ? S读屏幕s q n 6 %内容并使用软件工具执行任务的能力。

该公司举了个例子：b V V Z . z如果用户是z B : , 7 2 s U一名开发者，使用的软件有好几个，– r ^ 3同时也已经给予了 Cla+ u i y m (ude 适当的权限– e H % z A q E，那么 Claude 就可以查看用户能看到的屏幕，然后统计其所要移动的垂直和水平像素的数量，从而点击到正确位置。因此，准确统计像素数量的能力对 Claude 而言至关重要。没有这项技能，模型就难以发出鼠标指令 —— 类似于模型难以解决「banana 中有多少个 A？」这样的t H ~ 5 ^ O问题。

Anthropic 表示，p : \ 2 Y在训练 Claude 使用计算机方面，仅使用少量简单软件（比如一个计算器和一个文本编辑器）进L 5 P 9 C ,行的训练就让 Claude 可以泛化这种能力。这一点让开发团队自己都深感惊讶。至于为何使用这样的简单软件，该团队表示：「出于安全原因，我们并不允许模型在训练时访问互联网。」

再结合 Claude 的其它能力，这种训练赋予了它非凡的能力，可以将用户的文本提示词转化为一系列逻辑步骤，然后在计算机上采取行动。开发团队观察到，如果遇阻，该模型甚至还能自. = f o ? R我纠错并重试任务。

他们表示：「虽然我们在取得初步突破后很快就取得了后续进展，但达到这一目标的过程经历了大量反复试验。」该公司` U H x v I t *的一些研究者指出，让 CG 7 t 6laude 具备使用计算机的能力接近他们刚开始从事该领域时所描绘的 AI 研究的「理想化」过程：不断迭代和反复回到绘S , h B L d t | ,图板，直到取得进展。

终于，研究获得了回报。目前，Claude 可以说是当之无愧的 SOTA 模型，其使用计算机的方式与人类相同 —— 即查看屏幕再采取行动。在 OSWorld 这项测试模型使用计算机的能力的评估基准上，Claude 当前的准确度为 14.9%，虽然远远不及人类水平（通] M + z 4 Z常为 70-75%），但& * { z o D h y却远高于在此基) 8 r K . q { q准上排名第二的 AI 模型（7.8%）。当给予更多的步骤u ? 2 7 d n来完成任务时，Claude 得分为 22.0%。

^{OSWorld 基准上当前排名前十的模型}

确T Q t保计算机使用安全

人工智能的每一次进步都会带来新的安全挑战。计算机的使用主要是降低人工智能系统应用现有认知技能的障碍，而不是从根本上提高这些技能，因此 Anthropic 对计算机使用的主要关注点是当前的危] : /害，而不是未来的危害。

AnthB . e , Z P 3 nropic 通过评估计算机的使用是否会增加其《负责任扩展政策》中列出的前沿威胁（frontier threak I Wts）的风险来证实这一点。更新后的 Claude 3.5 Sonnet，包括其新的计算机使用技能，仍处于 AI Safety Level 2，也就是H ~ 8 S +说，它不需要比 An^ _ x o $ I B X 7thropic 目前采取的安全措施更高标准的安全措施。

未来的模型可M + o J G F –能会带来灾难性的风险，计= X Z ! I W L a W算机的使用可能会加剧这些风险，因此需要 AI Safety Level 3 或/ 8 Y w = ! j A H 4 的保障措施。Anthropic 认为现在引入计算机使用可能会更好，而模型仍然只O P y y g S i ~ (需要 AI Safety Levelo G 2 X : y . 2 的保障。这意味着可以在风险过高之前开始解决任何安全问题。

因此M R Q j A，Anthropic 的信任与安全团队对计算机使用模型进行了广泛的分析，以识别潜在的漏洞。他们发现的一R 8 ]个问题是「提示词注入」—— 一种网络攻击，会输入8 u $恶意指令到人工智能模型，导致其要么覆盖先前的指令，要么执行偏离用户原始意图的意外操作。由于 Claude 可以解读连接到互联网的计算机的屏幕截图，因此它可能会暴露于包含提! p A e M 4 w示词注入攻击的内s | | t 9 3 r 9 x容。

默认情况下，Anthropic 不会使7 , 0 ( T [ 8用用户提交的数据（包括 Claude 收到h A O J r的任何屏幕截图）来训练其生成式 AI 模型。

「计算机使用」的未来

计算机的使用是一种完全不同的人工智能开发方法。到目前为止，LA ] c w ~ D Y c }LM 开发人员已经制作了适合模型的工具，生成了自定5 O 0 6 [ ~ ]义环境，人工智能可以使[ o & q i \ m用专门设计的工具来完成各种任务。

现在，Anthropic 的研究者可以让模型适应工具 —— Claude. j ; o W V k & 可B = d Z b ` e o以融入我们日常使用的计算机环m T | ) r ;境中。他们的目标是让 Claude 能够利用现有的计算机软R ^ 0 9 Y – Z _件，并像人类一样简单地使用它们。

研究者构建了b = P u U一个 API，使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示词翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、n a E H ) % P进行测试和 QA 以及进行开放式研究。一夜之间，大模型像人一样操控电脑了！Claude 3.5重磅升级，抢先OpenAI

研究者并没有制作专门的工具来帮助 Claude 完成个别任务，而是教它通用的计算机技能，让它能够使用为人类设计的各种标准工具和软件程序。一夜之间，大模型像人一样操控电脑了！Claude 3.5重磅升级，抢先OpenAI

不过，Anthropic 还有很多工作要做。尽管目前 Claude 处于技术的最前沿，但S o | N B + o它使用计算机的速度仍然缓慢且经常出错。人们在计算机上常规进行. = : m S的许多操作（如拖动、缩放等）Claude 还无法完成。

对于 Claude 来说，它观察到的屏幕「翻页」方式– = & v —— 是通过拍摄屏& | Y F c } : t A幕截图并将它们拼L 8 o接起来的方式，而不是观察更_ % p { z n \细粒度的视频流。这种方式意味着 Claude 可能会错过那些短暂的操作或通知。

甚至在录G 4 + 3 Q . 4 u G制计算机使用演示时，研究者也遇到了一些有趣的错误。其中一个错误是，Claude 不小心点击停止x r Y 7 H , e了长时间的屏幕录% e x制，导致所有镜头都丢失。另一个错误是，Claude 突然中断了现– V + 3场的编码演示，开始浏览黄石国家公. . 3园的照片。

研究者预期对计算机的使用将迅速改进，变得更快、更可靠，并更有助于用户完成他们想要完成的任务。对于X y + ` @ |那些软件开发经验较3 1 V + : H 8少的人来说，实施起来也将变得更加容2 k : j易。并且在每一个阶段，研究人6 t H F m员都将与安全团队紧密合作，确保 Claude 的新功能更加a m Y 1 P G安全。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经E – r 5 u V b开始探索「计算机使用」的各种可能o , 1 *性，执行那些需要几十个、有时甚至几百个步骤, ? + % ` y j o _才能完a 4 T | = E |成的任务\ J B } h T。例如，Replit 正在利用 Cl{ . { Taude 3.5 Sonnet 的计算机使用和 UIk ` G ( R s Y Q 5 导航能力，为其 Replit Agent 产品开发一个关键功能，该功能可以在构建应P p . /用程序时评估这些应用程序。

升级版的 Claude 3.5 Sonnet 现在对所有用户开放。从今天开始，开发者可以在\ a 0 @ AnthroY M y _ O bp} E O d 5ic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「计算机使用」的测试版进行构建6 K F 4 )。新的 Claude 3.5 Haikc 3 – \u 将在本月晚些时候N x P –发布。

Claude 3.0 P } 3 A i b Z5 Sonnet：行业领先的软件工程技能

更新版的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进，特别是在智能体编码和工具使用任务上取得了显著的提升。在编码方面，其在 SWE-bench Ve8 G Krified 上的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型 —— 包括像 OpenAI o1-preview 这样的推理模型和专# O e f为智能体编码设计的专门系统。它在w m e H R s 7 J TAU-bench 上的表现也有所提升，这是一个智能体工具使用任务，在零售领域的得分从 62.6% 提H e \ C @ * :高到了 69.2%，在更具挑战性的航空领域则从 36.0% 提高到了 46.0%。新的 Claude 36 K | { e R 6 Z.5 Sonnet 以与其前代相同的价格和速度提供了这些改进。

早期客户反馈表明，升级版的 Claude 3.5 Sonnet 代表了 AI 驱动编码的重大飞跃。GitLab 针对 Dy – RevSecOps 任务对该模型进行了测试，发现它提供了更强的推理能力（] v l m Q . ^在用例中高达 10%），并且没有增加延迟，这使其成为驱动多步骤软件开发流程的理想选择。Cognition 使用新2 L o Y j | V的 Claude 3.5 Sonnet 进行自主/ ( ; AI 评估，与前一版本相比，它在编码、规划和问题解决方面经历了显著的改进。The Browser Company 在用于自动化基于 Web 的工作流程时，注意到 Claude 3.5 Sonnet 的表现超过了他们之前测试过的每一个模型。

Claude 3.5 Haiku：SOTA 技术与性价比和速度的结合

Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。与 Claude 3 Haiku 的成本相[ = ) (同，速度相似，Claude 3.5 Haiku 在每项o c A @ 4 s技能上都有改进，并且b ! 7 o i a ~ , M在许多智能基准测试上甚至超过了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在编码任务上尤其强大。例如，它在 SWE-bench Verified 上的得分为 40.6%，超过了使用公开可用的 SOTA 模型的许多智能体 —— 包括原始的 Cla c 4 # F _ 8 0 )aude 3.5 Sonnet 和 GPT-4oF b M $ i y J g –。

凭借低延迟、改进的指令遵循和更准确的工具使用，Claude 3.5 Haiku 非常适合面向用户的Y c ( 1 l 1 z T c产品、专门的 sub-agent 任务以及从大量数据（如1 } o购买历史、定价或库存记录\ } t t G `）中生成个性化体验。

Claude 3.5 Haiku 将于本月晚些时候通2 ! G E R b过 Anthropic 的第一方 API、A} T B /mazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作为仅限文本的模型，随后将支持图像输入。

^{参考链接：}

^{https://www` . 1.anthropic.com/news/3-5-models-and-computer-use}

^{https://www.anthropic.com/A V z = % E . O ?research/developing-computer-use}

以上就是一夜之间，大模型像人一样操控电脑了！Claude 3.5重磅升级，抢先OpenAI的详细内容！

百度未收录

本文由【好易之】整理自网络！
原创文章，作者:【好易之】如转载请注明出处：https://www.zhengjiaxi.com/zxwd/itzx/118330.html
如有侵权，请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途，否则后果请用户自负。
本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。
如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。如有侵权请邮件与我们联系处理。