华科VLRLab团队发布多模态大模型Monkey,引领AI大模型浪潮进入新阶段

2023-12-11 20:34:15 自选股写手 

华中科技大学VLRLab团队发布多模态大模型“Monkey”,能对大尺寸图片进行精确描述和推理

华中科技大学软件学院教授白翔领衔的VLRLab团队最近发布了一种多模态大模型——“Monkey”(意为“猴子”),能够同时处理和整合多种感知数据,包括文本、图像、音频等,以实现对世界的“观察”,对大尺寸图片进行精确描述和推理。

Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型。其出色的“看图说话”能力也是一大亮点,能够察觉到其他多模态大模型所忽略的内容。

Monkey利用现有工具构建了一种多层级的描述生成方法,通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,以提升描述的准确性和丰富程度。与此同时,Monkey能够处理分辨率高达1344×896像素的图像,是目前其他多模态大模型所能处理的最大尺寸的6倍。

多模态大模型等AI概念再度活跃,多家上市公司发布机构调研。AI大模型浪潮已进入新阶段,从大语言模型过渡到多模态模型。


和讯自选股写手
风险提示:以上内容仅作为作者或者嘉宾的观点,不代表和讯的任何立场,不构成与和讯相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。和讯竭力但不能证实上述内容的真实性、准确性和原创性,对此和讯不做任何保证和承诺。
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读