xAI突破多模态AI界限,Grok-1.5V模型领先行业,颠覆市场预期!

2024-04-14 13:32:45 自选股写手 

强AI领域迎多模态大模型竞争,Grok-1.5V展现多面能力

一个月内,马斯克领导的xAI公司发布多模态大模型Grok-1.5V,掀起行业新风潮。

4月13日,xAI公司宣布推出其首款多模态大模型Grok-1.5V,与OpenAI的大语言模型展开激烈竞争。Grok-1.5V不仅能处理文本,还能理解视觉信息,包括文档、图表、屏幕截图及照片,并进行多学科推理。

xAI展示了Grok-1.5V的7个应用示例:将手绘图表转换为Python代码、计算食品卡路里、根据绘画讲睡前故事、解释梗图、表格转换为csv格式、解决日常问题、处理代码难题。

Grok-1.5V在多模态大模型竞赛中表现突出,与GPT-4V、Claude 3 Sonnet等模型不相上下,部分基准测试中略胜一筹。尤其在RealWorld QA基准测试中,Grok在真实世界理解能力上明显优于同类模型。

数据集RealWorld QA已公布,采用CC BY-ND 4.0许可,大小为677MB。该数据集包含700多张图片,每张配有问题和答案。xAI计划随着模型改进而扩展该测试。

自11月推出聊天机器人(300024)Grok以来,xAI持续推进技术发展,1个月内实现Grok-1的开源、长文本Grok-1.5发布、以及多模态大模型Grok-1.5V的推出。

Grok-1.5V将很快提供给早期测试者及现有Grok用户。xAI团队表示,提升多模态理解和生成能力是构建有益AGI的重要步骤。未来数月,公司将对图像、音频、视频等模态的功能进行重大改进。

同时,xAI广邀设计师、工程师、产品经理等人才加盟。LLaVA原作者柳昊天宣布加入xAI,表达对团队和未来发展的期待。清华大学博士生刘世隆将于4月19日在北京举行的2024中国生成式AI大会上分享LLaVA-Plus相关观点。


和讯自选股写手
风险提示:以上内容仅作为作者或者嘉宾的观点,不代表和讯的任何立场,不构成与和讯相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。和讯竭力但不能证实上述内容的真实性、准确性和原创性,对此和讯不做任何保证和承诺。
(责任编辑:贺翀 )
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读