事项:
北京时间2024年5月14日,OpenAI在其春季发布会上,推出新旗舰模型GPT-4o。
平安观点:
GPT-4o的文本、推理及编码能力对标GPT-4Turbo。GPT-4o可接受文本、音频和图像的任意组合作为输入,并可生成文本、音频和图像的任意组合作为输出。GPT-4o在英语文本和代码方面的性能可对标GPT-4Turbo,在非英语文本方面的性能显着提高,同时API的速度也更快,且成本降低50%。其中,在文本评价方面,根据OpenAI官网信息,相比GPT-4Turbo 、Claude3Opus 、GeminiPro1.5 、GeminiUltra1.0 、Llama3 400b等主流大模型,GPT-4o在0-shotCOTMMLU(常识问题)上创下了88.7%的新高分,在传统的5-shotno-CoTMMLU上,GPT-4o创下了87.2%的新高分。
GPT-4o在视觉和音频理解方面实现突破。根据OpenAI官网信息,在GPT-4o之前,使用语音模式与ChatGPT对话,GPT-3.5/GPT-4的平均延迟分别为2.8/5.4秒。而GPT-4o可以在短至232毫秒的时间内响应音频输入,平均时长为320毫秒,与人类在一次谈话中的响应时间相似。主要是由于,此前的语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。在这个过程中GPT-4丢失了大量信息,它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。GPT-4o跨文本、视觉和音频,端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
GPT-4o提速降价,高可用性助推大模型应用侧加速渗透。根据OpenAI官网信息,面向C端用户:GPT-4o的文本和图像功能已经于发布当日开始在ChatGPT的免费套餐中推出,并向Plus用户提供高达5倍的消息限制。OpenAI将在未来几周内在ChatGPTPlus中推出新版本的语音模式GPT-4oalpha。面向开发者:开发人员可以在API中访问GPT-4o的文本及视觉模型功能。与GPT-4Turbo相比,GPT-4o速度提高2倍,价格降低50%。OpenAI计划在未来几周内在API中向部分合作伙伴开放GPT-4o新音频和视频功能。GPT-4o的推出是OpenAI大模型产品在实用性方面的重大突破。根据幻方AI 公众号消息, 此前, 国内AI 公司深度求索(DeepSeek)于2024年5月6日发布的大模型DeepSeek-V2性能比肩主流大模型,DeepSeek-V2通过全方位的模型架构创新,实现成本的大幅下降,定价策略相比GPT-4-Turbo,性价比优势凸显。国内外大模型逐渐呈现由单方面的性能角逐,转向性能与实用性并重的发展趋势,更加注重性价比,有望通过降低下游大模型部署成本,加速大模型在各场景的应用落地。
投资建议:当前全球范围内的大模型逐渐呈现由单方面的性能角逐,转向性能与实用性并重的发展趋势。大模型能力达到一定水平时必然会走向应用,大模型厂商通过提升其产品性价比,助推下游应用端的推广部署,有望加速大模型产业链商业闭环的形成。我们继续看好AI主题的投资机会,标的方面:1)算力方面,推荐中科曙光、紫光股份、神州数码、龙芯中科,建议关注寒武纪、景嘉微、拓维信息、软通动力;2)算法方面,推荐科大讯飞;3)应用场景方面,强烈推荐中科创达、盛视科技,推荐金山办公,建议关注万兴科技、同花顺、彩讯股份;4)网络安全方面,强烈推荐启明星辰。
风险提示:1)国内大模型算法发展可能不及预期。2)AI算力供应链风险上升。3)大模型产品的应用落地低于预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论