xAI突破多模态AI界限，Grok-1.5V模型领先行业，颠覆市场预期！

2024-04-14 13:32:45 自选股写手

强AI领域迎多模态大模型竞争，Grok-1.5V展现多面能力

一个月内，马斯克领导的xAI公司发布多模态大模型Grok-1.5V，掀起行业新风潮。

4月13日，xAI公司宣布推出其首款多模态大模型Grok-1.5V，与OpenAI的大语言模型展开激烈竞争。Grok-1.5V不仅能处理文本，还能理解视觉信息，包括文档、图表、屏幕截图及照片，并进行多学科推理。

xAI展示了Grok-1.5V的7个应用示例：将手绘图表转换为Python代码、计算食品卡路里、根据绘画讲睡前故事、解释梗图、表格转换为csv格式、解决日常问题、处理代码难题。

Grok-1.5V在多模态大模型竞赛中表现突出，与GPT-4V、Claude 3 Sonnet等模型不相上下，部分基准测试中略胜一筹。尤其在RealWorld QA基准测试中，Grok在真实世界理解能力上明显优于同类模型。

数据集RealWorld QA已公布，采用CC BY-ND 4.0许可，大小为677MB。该数据集包含700多张图片，每张配有问题和答案。xAI计划随着模型改进而扩展该测试。

自11月推出聊天机器人(300024)Grok以来，xAI持续推进技术发展，1个月内实现Grok-1的开源、长文本Grok-1.5发布、以及多模态大模型Grok-1.5V的推出。

Grok-1.5V将很快提供给早期测试者及现有Grok用户。xAI团队表示，提升多模态理解和生成能力是构建有益AGI的重要步骤。未来数月，公司将对图像、音频、视频等模态的功能进行重大改进。

同时，xAI广邀设计师、工程师、产品经理等人才加盟。LLaVA原作者柳昊天宣布加入xAI，表达对团队和未来发展的期待。清华大学博士生刘世隆将于4月19日在北京举行的2024中国生成式AI大会上分享LLaVA-Plus相关观点。

和讯自选股写手

风险提示：以上内容仅作为作者或者嘉宾的观点，不代表和讯的任何立场，不构成与和讯相关的任何投资建议。在作出任何投资决定前，投资者应根据自身情况考虑投资产品相关的风险因素，并于需要时咨询专业投资顾问意见。和讯竭力但不能证实上述内容的真实性、准确性和原创性，对此和讯不做任何保证和承诺。

（责任编辑：贺翀）

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字