事件
3 月4 日,Anthropic 公司发布新一代Claude 3 模型,共发布三个模型,分别为Claude 3 Haiku、Claude 3 Sonnet 与Claude 3 Opus,能力依次从低到高。
Opus 在多个性能基准比较上全面优于OpenAI 的GPT-4通过对Claude 3 系列模型与其他模型在多个能力评估基准上对比得出,Opus 在AI 系统常用评估标准,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA) 、基础数学(GSM8K)等,都强于GPT-4 和Gemini 1.0,取得领先业界的LLM 性能,同时Opus 在复杂任务上表现出接近人类水平的理解力和流畅度;Sonnet 在部分基准上,如GSM8K、MATH 等超越了GPT-4,Haiku 的性能基本与Gemini 1.0Pro 持平。此外,包括 Opus 在内,所有 Claude 3 系列模型都在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面实现了能力增强。
用户可以依据自己对智能水平、处理速度和成本的需求选用适合的模型,目前,Opus 和Sonnet,已经可以在claude.ai 以及Claude API(覆盖159 个国家)上使用了,Haiku 模型也将于不久后推出。
处理速度和智能程度显著提升
对大多数任务而言,Sonnet 的处理速度是Claude 2 和Claude 2.1 的2 倍,而且智能程度更高。它擅长执行需要快速响应的任务,比如知识检索或销售自动化。Opus 虽然在速度上与Claude 2 和2.1 持平,但其智能水平有了显著提升。
Claude 3 模型可以支持实时客户聊天、自动补充和数据提取等响应必须立即且实时的任务。Haiku 是智能类别市场上速度最快且最具成本效益的型号,它可以在不到三秒的时间内读完一篇包含密集图表和图形信息的论文(约 10k tokens)。
Claude 3 系列模型具备与其他领先模型相媲美的高级视觉识别能力
另外, Claude 3 系列模型具备与其他领先模型相媲美的高级视觉识别能力。它们能够处理各种视觉格式,包括照片、图表、图形和技术绘图等。从基准测试中可以看出,Claude 3 系列模型在部分视觉能力上,性能领先。其中 Claude 3 Opus 是智能程度最高的模型,支持 200ktokens 上下文窗口,在高度复杂的任务上实现了当前 SOTA 的性能。
更少拒绝回复,准确率大幅提高
以前的 Claude 模型由于缺乏语境理解经常做出不必要的拒绝,此次Claude 3 在这一领域取得了进步,与前几代模型相比,Opus、Sonnet 和Haiku 拒绝回答的可能性明显降低,Claude 3 模型对于请求 表现出更细致的理解,并且能识别真正有害的prompt,拒绝回答无害的prompt 的频率大幅下降。
同时为了评估模型的准确率,Anthropic 使用了大量复杂的、事实性问题来解决当前模型中的已知弱点。Anthropic 将答案分为正确答案、错误答案和不确定性回答,也就是模型不知道答案,而不是提供不正确的信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上的准确性或正确答案提高了一倍,同时也减少了错误回答。
长上下文能力达到业界最高
Claude 3 系列的3 个模型,都将至少支持20 万token 的上下文窗口。
而且,这三个模型都能处理超过100 万token 的输入,大约是英文版《哈利波特与死亡圣器》的长度, Anthropic 考虑将此提供给需要增强处理能力的特定用户。Needle In A Haystack(NIAH)评估衡量模型从大量数据中准确回忆信息的能力。Claude 3 Opus 实现了近乎完美的召回率以及超过 99% 的准确率。而且在某些情况下,它甚至识别出了评估本身的局限性,比如意识到某些句子似乎是人为插入到原始文本中的。
安全性取得进步
Claude 3 模型系列非常强调安全性。Anthropic 专门组建了多个团队,致力于从虚假信息、生物安全滥用、选举干预等方面降低风险。同时,他们还在努力增强模型的安全性的透明度,同时减少隐私问题。
Claude 3 模型系列在生物知识、网络相关知识和自主性的关键指标方面取得了进步,根据研究,新模型处于 AI 安全级别 2(ASL-2)以内。
Claude 3 Opus 和Sonnet 在遇到类似欺诈的询问时,都出于礼貌拒绝了这些行为。
Sonnet 和Haiku 在价格上优于GPT-4 Turbo
Opus 是Anthropic 最强的模型,在复杂任务的处理上表现极强。
Sonnet 与市场上的其他同类产品相比,它不仅能够以更低的成本实现更出色的性能,还特别适用于需要长时间运行的大型人工智能系统,Sonnet 经济实惠, 特别适合需要大规模部署的场景。Haiku 是Anthropic 速度最快、体积最小的模型,能够实现几乎瞬时的响应,与能力水平相当的模型对比,Haiku 的性能、响应速度和成本综合起来优势非常明显。
从模型定价来看,Opus、Sonnet 和Haiku 的价格也是由高到底,Opus:输入 15 美元/百万tokens,输出 75 美元/百万tokens;Sonnet:
输入3 美元/百万tokens,输出15 美元/百万tokens;Haiku:输入0.25 美元/百万tokens,输出1.25 美元/百万tokens。GPT-4 Turbo 的输入价格为10 美元/百万 tokens,输出价格为30 美元/百万tokens,Opus 高于GPT-4 Turbo,但是Sonnet 和Haiku 相比GPT-4 具有明显价格优势,尤其Haiku 在性能、响应速度和成本综合起来看优势非常明显。
投资建议
仅仅一个月之内,OpenAI 发布Sora, 谷歌发布Gemini 1.5 到Anthropic 发布Claude 3,海外AI 大模型迭代进程加快,我国大模型领军者如百度、阿里、华为、科大讯飞等也在追赶进度,全球范围内大模型领域竞争激烈,将大幅提升大模型多模态能力以及商业化进程,今年政府工作报告中明确提出要开展“人工智能+”行动,打造具有国际竞争力的数字产业集群,适度超前建设数字基础设施,加快形成全国一体化算力体系,大模型行业发展离不开算力和算法,建议持续关注我国算法和算力行业龙头公司。
风险提示
1、算法发展不及预期;2、算力发展不及预期;3、商业化落地进程不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论