【5 月 13 日下午消息,火山引擎在 FORCELINKAI 创新巡展·上海站发布新模型】 火山引擎新发布的豆包 1.5·视觉深度思考模型激活参数仅 20B,却具备强大多模态理解和推理能力。 在 60 个公开评测基准中,有 38 个取得 SOTA 表现,在视频理解、视觉推理、GUIAgent 能力等方面处于第一梯队,目前已在火山方舟上线。 在视频理解方面,支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,能精准定位视频中与文本描述相对应的片段。 同时,新增视频深度思考能力,模型学习数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,视觉推理能力大幅提升。 此外,该模型新增 GUIAgent 能力,基于强大的 GUI 定位性能,可在不同环境中完成复杂交互任务,已应用于字节跳动多款 APP 产品的开发测试中。
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

董萍萍 05-13 14:33

刘畅 05-09 20:12

王治强 04-29 06:33

刘畅 04-28 19:03

刘静 04-27 12:27

王治强 04-17 10:33
最新评论