OpenAI 和谷歌大模型重磅更新,引领AI 多模态变革
北京时间5 月14 日凌晨,OpenAI 召开春季发布会,升级了全新的模型GPT-4o(其中的o 代表omni,即全面、全能的意思)。本次发布会中展示了新模型的几大亮点:1)打通任何文本、音频和图像的输入,相互之间可以直接生成,无需中间转换,可以实现类人的多轮语音对话、看图解题、实时翻译等多种功能,是一个端到端的多模态大模型;2)GPT-4o 语音延迟大幅降低,能在232 毫秒内回应音频输入,平均为320 毫秒,这与对话中人类的响应时间相似;3)GPT-4o API比GPT 4-Turbo 快2 倍,价格便宜50%;4)GPT-4o 的文本和图像功能已经在ChatGPT 中开放使用,免费注册用户也可以体验。未来几周内,OpenAI 会在ChatGPT Plus 中推出新版本的语音模式GPT-4oalpha 版。
北京时间5 月15 日凌晨,谷歌举办2024 年I/O 开发者大会。大会上谷歌发布了多个新产品、新工具、新功能:1)最新款大模型Gemini1.5 Pro 的上下文窗口从100 万tokens(最小输入单元)升级到200万,并推出轻量化模型Gemini 1.5 Flash;2)推出文生图新模型Imagen 3、音乐创作大模型Music AI Sandbox、视频生成模型Veo;3)将AI 融进了搜索功能,将在美国推出“AI 概览”(AI Overviews);4)发布了AI 通用智能体项目Project Astra 和谷歌下一代开源模型Gemma2。
苹果新iPad 布局端侧AI,联想开启AI 终端新时代北京时间5 月7 日,苹果公司举行了春季发布会,新一代iPad Pro、iPad Air,以及Apple Pencil Pro、新款妙控键盘正式发布。iPadPro 时隔一年多首次大版本更新,不仅成为史上最薄苹果产品,更搭载最新的M4 芯片,其运算速度达到每秒38 万亿次。发布会中,苹果频繁地提到iPad Pro 的AI 属性,包括NPU(神经网络引擎)和混合架构下AI 性能的领先,也包括在音频、图像创作中的AI 体验,并直接对标AI PC,据苹果硬件高级副总裁:“和轻薄型PC 处理器相比,M4 芯片用四分之一的功耗即可实现相同的性能,神经网络引擎更是超越目前市面上所有AIPC”。
5 月16 日,联想在北京全球总部举办了AI PC 元启版&AI 手机发售体验会,现场聚焦当下前沿的AI 终端领域,详解并开售了多款AI 终端,主要包括YOGA Book 9i AI 元启版、YOGA Pro 16s AI 元启版、首款AI 手机moto X50 Ultra 等。由端云混合大模型所驱动的联想个人智能体产品联想小天也正式亮相,它是一个具备内嵌个人大模型与用户自然交互的智能体,支持本地异构AI 算力(CPU/GPU/NPU),拥有个人知识库和开放的人工智能应用生态,最重要的是还能保护个人数据和隐私安全。
建议关注
模型迭代推动应用发展,AI 产业未来可期。随着多模态能力的进一步加强,促使模型能实现的功能更加丰富,为应用诞生奠定基础,建议关注:1)AI 应用:金山办公、万兴科技、美图公司、佳发教育、新致软件、鼎捷软件等;2)数据标注和数据库:海天瑞声、星环科技等;3)AI 终端和算力:华勤技术、联想集团、浪潮信息、工业富联、润泽科技等。
风险提示:
AI 进展不及预期,市场竞争加剧,研发不及预期等。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论