RAG 为大模型提供“长期记忆”,企业&个性化需求推动RAG 需求增长。在RAG(检索增强生成)架构中,LLM(大语言模型) 在生成响应前,先向向量数据库发起查询,其中向量数据库作为连接用户查询与外部知识的关键中枢,负责高效存储、管理和检索高维向量化的知识表示,从而提升生成结果的准确性和时效性。从企业侧看,RAG 正逐步渗透至在线场景(电商、Web 搜索等)、离线场景(企业、法律、工程研究等)。从个人侧看,个性化RAG 保留用户长期记忆、偏好与上下文信息,形成“用户级向量空间”,显著推高RAG 需求增长。
AI 推理RAG 向量数据库推动SSD 需求增长。向量数据库存储介质需承载大规模向量数据及索引结构,要求支持高吞吐和低时延,以满足高并发场景下的相似度检索需求。目前向量数据库存储介质正在从“内存参与检索”走向“全SSD 存储架构”。根据《All-in-storage ANNS Algorithms Optimize VectorDB Usability within aRAG System》以KIOXIA AiSAQ 为例,向量、PQ 量化结果及索引统一存储于SSD,10B 级向量规模所需SSD容量为11.2TB,其中PQ Vectors 占1.28TB,索引占10TB。在采用TLC/QLC SSD 下,AiSAQ 相较于DiskANN介质成本具备4-7 倍的成本优势;此外,AiSAQ 所有租户处于激活状态,租户可直接开始查询,不存在必须先从SSD 加载到DRAM 后才能开始查询的“冷启动”延迟,提升RAG 系统的规模化扩展能力与经济可行性。
火山引擎TOS Vectors 开启向量存储新范式,对SSD 需求提高。根据火山引擎开发者社区公众号,TOS 推出Vector Bucket,该架构采用字节自研的Cloud-Native 向量索引库Kiwi 与多层级本地缓存协同架构(涵盖DRAM、SSD 与远程对象存储)。在大规模、长周期存储和低频查询的场景下,该架构不仅满足高/低频数据的分层需求,而且显著降低企业大规模使用向量数据的门槛。TOS Vector 与火山引擎高性能向量数据库、火山AI agent 等产品深度协同,以交互型Agent 场景来看,将高频访问的记忆(如用户的核心偏好、近期的任务执行结果等)存放在向量数据库中,实现毫秒级的高频检索;将低频访问的记忆(如半年前的交互记录或历史执行结果)沉淀到TOS Vector 中,允许秒级延迟,以此换取更低的存储成本和更广阔的记忆空间;以处理复杂任务的Agent场景来看,TOS Vectors 既能承载海量的语义向量存储,又能保证长期数据的可持续积累。
投资建议。RAG 架构为大模型提供长期记忆,企业和个性化需求推动了对RAG 存储需求的增长。AI 推理中的RAG 向量数据库存储介质正在从“内存参与检索”向“全SSD 存储架构”过渡,推动高带宽、大容量SSD 的需求将持续增加。建议关注产业链核心受益标的。
风险提示。AI 产业发展以及需求不及预期;AI 服务器出货量不及预期,国产厂商技术和产品进展不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:张晓波 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论