事件
12 月6 日谷歌发布多模态大模型Gemini。Gemini 原生地支持多模态,使用图像、音频、视频和文字等数据进行预训练,其能够无缝地理解和推理各种输入,远远优于现有多模态模型,在各种领域都具有强大的理解和推理能力。
Gemini 支持32k 上下文长度,先发版本包括Ultra、Pro 和Nano 三种规格
1)Ultra 是最强大的规格,适用于高度复杂的任务;2)Pro 具有增强性能和大规模部署能力,适用于多任务;3)Nano 适用于特定任务及移动设备。
Gemini 多模态理解推理能力极强,测试结果或超越GPT-4Gemini 具有强大的多模态信息理解推理能力,其可以同时识别和理解文本、图像、音频等,擅长解释数学和物理等复杂学科的推理。在MMLU 上,GeminiUltra 是第一个在57 个学科上实现超过90%的人类专家水平得分的模型。据官方文档案例,1)如图2 所示,Gemini 能够理解学生杂乱的笔迹,理解关于滑雪者滑下斜坡的物理问题,识别出学生在解决问题时出错的具体推理步骤,并给出解决问题的正确方法。2)如图4 所示,Gemini 能够识别图像中显示的特定植物,并提供相关信息。尽管有错别字,Gemini 仍能理解用户的问题。3)如图5所示,Gemini 能够识别图像中的形状,理解它们的属性,并推理它们之间的关系,从而预测下一个物体。
专用TPU 训练,TPU v5e 推理性能提升2.5 倍,成本降低50%谷歌使用大量的TPU 资源对Gemini 进行训练,包括TPUv4 和TPUv5e。规模最小的Gemini Nano 的参数分别为18 亿(Nano-1) 和32.5 亿 (Nano-2) 。
TPUv5e 是谷歌专为提升大中型模型的训练、推理性能以及成本效益所设计,并且其内部张量处理单元的最新版本。与TPUv4 相比,TPUv5e 的大型语言模型提供的训练性能提高了2 倍、推理性能提高了2.5 倍。而TPUv5e 的成本却不到TPUv4 一半,使企业能够以更低的成本,训练和部署更大、更复杂的AI 模型。
投资建议:我们认为AI 技术突破或超市场预期。Gemini 原生支持多模态,具有强大的理解和推理能力,TPUv5e 实现成本降低与更强的训练能力。模型能力的提升与多模态的发展有望推动AI 应用端的使用场景与内容创新,建议重点关注:1)有相关多模态产品布局且产品有望近期上线的公司;2)核心业务的应用场景有望受益的公司。建议关注昆仑万维、易点天下、浙文互联、紫天科技、汤姆猫、盛天网络、中文在线、南方传媒、世纪天鸿、元隆雅图、视觉中国、奥飞娱乐、蓝色光标、掌趣科技、中国电影、北京文化、新媒股份。
风险提示:AI技术发展不及预期、行业竞争加剧等。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论