计算机周报：人机交互革命 ANTHROPIC推出COMPUTER USE

2024-10-27 18:25:03 和讯财通证券杨烨

　　Anthropic 发布升级版Claude 3.5 Sonnet，并推出Computer Use 功能。2024 年10 月22 日，Anthropic 发布的两款大模型，分别对标GPT-4o、GPT-4o mini，并在多维参数上实现了超越，同时推出了Computer Use 功能。
　　Claude 3.5 Sonnet（new）具备行业领先的软件编程能力，在SWE-bench Verified上排名第一；Claude 3.5 Haiku 具备出众的性价比和速度，同样擅长编程。
　　Computer Use 让AI 像人一样操作电脑，开启人机交互新范式。
　　Anthropic 推出Computer Use 功能，让大模型可以像屏幕前的人类那样直接操纵电脑鼠标和键盘去完成指令。具体步骤可分为：多模态理解屏幕，通过不断地对屏幕截图，对静态图片中信息进行解析并理解，类似于“看漫画”；定位像素，基于对任务指令和屏幕内容的理解，像人类那样“移动鼠标”；点击或输入，像人类那样“点击鼠标”或“键盘打字”；完成相应任务，通过将具体的任务，拆解为上述步骤，像人一样操作电脑来工作。
　　划时代的人机交互新范式，让大模型直接使用PC 软件，而无需额外适配环境。复盘人机交互历史，从早期的“命令行界面”到PC 时代的“图形用户界面”，到智能手机时代的显示屏触控交互，本质上都是人利用信息工具来控制设备，人既要充当命令的发起者，也要做执行者，而Claude 的Computer Use 功能让人类可以从执行者的角色中解脱出来，实现从发布命令到获得结果，由AI 来利用现有ICT 基础设施填补过程。Anthropic 将ComputerUse 功能带来的改变描述为从“工具适应模型”到“模型适用工具”，我们认为前者像是“为了过河专门给大模型重新建一座适合它的桥”，后者是“教会大模型直接模仿人类，从人类已经建好的桥上过河”。
　　引领AI Agent 发展，Computer Use 尚需平衡效果、安全、成本。ComputerUse 尚处起步阶段，实际效果仍存在诸多不足，在OSWord（用于测试大模型使用电脑解决问题的能力）评估中，Claude 的得分率为14.9%，远远落后于人类的水平（通常得分在70-75%）。Anthropic 高度重视管理Computer Use 功能的安全性，从规避“提示注入”风险、规避Computer Use 干预政治、保护用户隐私三方面入手管控风险。当前Computer Use 的使用成本相当高，后续Anthropic 必须不断降低Computer Use 的使用成本，才有希望引领AI Agent 加速革新和落地推广。
　　风险提示：模型商业化落地不及预期风险、AI 技术迭代不及预期风险、地缘政治或供应链风险、全球宏观经济波动风险。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王治强 HF013）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约