本期投资提示:
事件:2024 年11 月29 日,智谱Openday 发布AutoGLM 新进展、AutoGLMWeb、GLM-PC、以及全球首个UI Agent 视觉基座模型,展示AI Agent 在手机、网页、电脑端的新交互方式,进一步推动国内端侧AI Agent 落地。目前AutoGLM 启动大规模内侧,预计将尽快上线成为面向C 端用户的产品。
AutoGLM 升级,支持完成复杂度更高任务。1)超长任务:理解和执行超长任务指令;2)跨App 协同:支持跨App 任务;3)短口令:支持长任务自定义短语;4)随便模式:AutoGLM 支持随便模式下自主决策。
首次展示类人计算机使用能力,包括Web 插件和PC 端侧。1)AutoGLM 插件上线,支持百度搜索、微博、知乎、GitHub 等数十个网站的自动操作能力。2)PC 端侧使用能力支持一句话操控电脑,完成网页浏览、微信文件发送、参加会议、发送会议总结等。目前仍处于产品初期阶段,需要非常精准的prompt,操作速度较慢以及仅支持Mac,有较大提升空间。
目前实现方式仍是通UI 模拟用户操作进行,图像和语言特征理解是关键技术。智谱GLM-PC 的拟人多模态感知主要基于自研CogAgent 视觉语言模型技术,用于理解和导航GUI,即通过跨注意力机制,将高分辨率图像特征和语言特征融合,理解识别页面元素,例如按钮、图表和文本位置等,模仿人类交互的方式进行操作。
AutoGLM、GLM-PC 启示:大模型强调推理后的能力水平,或足够支撑部分应用涌现:
1、 复杂行为规划能力大幅提升下,大模型已经初步具备模仿人类使用端侧设备的能力。以OpenAI O1 大模型、Claude3.5 大模型等为代表,AI 大模型应用从简单对话生成时代到Agent 执行操作复杂多步骤任务时代。
2、当前仍处于Agent 早期阶段,产品最终形态远未达到。根据OpenAI 提出的5 个阶段,当前正处于推理器到Agent 的步入期。我们认为当前以通过读取UI 界面模拟用户点击的方式仍是暂时过度路径,后续Agent 产品迭代是底层模型能力、APP 生态、端侧算力共同努力的结果。
3、2025 预计是AI Agent 元年,预期将催生更多AI 应用。Gartner 将AI Agent 列为2025 年十大技术趋势之一,预测到2028 年,至少有15%的日常工作决策由代理式AI自主完成。24 年底-25 年期待OpenAI、谷歌、微软等头部AI 企业的陆续发布。
计算机相关标的:1)Agent B 端落地:泛微网络、鼎捷数智;2)Sora 和多模态:万兴科技、虹软科技;3)AI 教育:科大讯飞;4)AI 办公:金山办公、福昕软件;5)AI金融:新致软件;6)AI 医疗:润达医疗。
风险提示:宏观环境不确定性带来风险;AI 技术发展不及预期;公司无法及时适应AI时代变革,在竞争中处于不利地位的风险;反垄断诉讼带来不利影响的风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王治强 HF013)
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论