强AI领域迎多模态大模型竞争,Grok-1.5V展现多面能力
一个月内,马斯克领导的xAI公司发布多模态大模型Grok-1.5V,掀起行业新风潮。
4月13日,xAI公司宣布推出其首款多模态大模型Grok-1.5V,与OpenAI的大语言模型展开激烈竞争。Grok-1.5V不仅能处理文本,还能理解视觉信息,包括文档、图表、屏幕截图及照片,并进行多学科推理。
xAI展示了Grok-1.5V的7个应用示例:将手绘图表转换为Python代码、计算食品卡路里、根据绘画讲睡前故事、解释梗图、表格转换为csv格式、解决日常问题、处理代码难题。
Grok-1.5V在多模态大模型竞赛中表现突出,与GPT-4V、Claude 3 Sonnet等模型不相上下,部分基准测试中略胜一筹。尤其在RealWorld QA基准测试中,Grok在真实世界理解能力上明显优于同类模型。
数据集RealWorld QA已公布,采用CC BY-ND 4.0许可,大小为677MB。该数据集包含700多张图片,每张配有问题和答案。xAI计划随着模型改进而扩展该测试。
自11月推出聊天机器人(300024)Grok以来,xAI持续推进技术发展,1个月内实现Grok-1的开源、长文本Grok-1.5发布、以及多模态大模型Grok-1.5V的推出。
Grok-1.5V将很快提供给早期测试者及现有Grok用户。xAI团队表示,提升多模态理解和生成能力是构建有益AGI的重要步骤。未来数月,公司将对图像、音频、视频等模态的功能进行重大改进。
同时,xAI广邀设计师、工程师、产品经理等人才加盟。LLaVA原作者柳昊天宣布加入xAI,表达对团队和未来发展的期待。清华大学博士生刘世隆将于4月19日在北京举行的2024中国生成式AI大会上分享LLaVA-Plus相关观点。
最新评论