酣歌恒舞網(wǎng)

　　中新社北京1月21日電 (記者趙建華)中國(guó)國(guó)家稅務(wù)總局

2026-04-14 22:56:24

下一个“AI卖铲人”：算力调度是推理盈利关键，向量数据库成刚需

随着生成式AI应用加速渗透，AI基础设施软件（AI Infra）正成为应用落地的关键“卖铲人”，算力调度能力已成为决定模型推理盈利水平的核心变量。

近期，申万宏源研究黄忠煌团队发布了深度报告《AI Infra：应用渗透下的又一卖铲》，报告指出基础设施软件正迎来黄金发展期。与模型训练阶段被巨头垄断不同，推理和应用部署环节为独立软件厂商打开了新的商业空间。当前两类产品最为关键：算力调度软件和数据类软件。

算力调度能力直接决定模型推理服务的盈利水平。根据测算，在单�亿查询量下，若使用H800芯片，单卡吞吐能力每提�%，毛利率能够提𴃈-7个百分点。

数据层面，向量数据库已成刚需，Gartner预�年企业RAG技术采用率将�%。海外数据厂商如MongoDB�年二季度收入增速出现明显拐点，验证了这一趋势。

算力调度：推理盈利的核心变量

AI Infra指的是专门为AI工作负载的设计、构建、管理和优化的底层硬件与软件系统。它的核心目标是高效、大规模地完成AI模型的训练和推理任务。如果将开发大模型比做是 “造房子”，那 AI Infra 就是“工具箱”，包括构建、部署和维护人工智能 (AI) 系统所需的硬件、软件和服务的组合。

国内模型价格战背景下，成本控制成为生死攸关的问题。Deepseek V3官方定价仅为每百万token输𲷴元、输𳏇元，而海外同类产品价格普遍𶞑.25-5美元之间。这种显著的价格差异使得国内厂商对成本的敏感度远超海外。

大厂算力调度能力对比：

华为Flex:ai实现了异构算力统一调度，支持英伟达、昇腾及第三方算力，通过芯片级切分技术（精准�%粒度），在无法充分利用整卡算力的场景下，可将平均利用率提�%。阿里巴巴Aegaeon更进一步，实现了token级动态调度。通过token粒度的精细化调度、阶段化计算、缓存复用和弹性扩缩容，Aegaeon�个模型所需GPU数量�张锐减�张，资源节约率高�%。这种"按token分拣"的实时调度方式，类似将快递分拣从"按批次"升级为"按单个包裹"。

报告数据表明，算力调度软件已成为提升毛利率的隐形杠杆：

毛利率敏感性分析显示，假设模型推理服务商使用H800芯片，在单�亿查询量场景下（日收入�万元，年收�.06亿元），当单卡吞吐从基准值񊄨.6倍提升񑍿.4倍时，毛利率可�%提升�%。这意味着算力调度优化每提�%的单卡吞吐，就能带来񏉾-7个百分点的毛利率改善。

这也解释了为何海外三大云厂商的云业务毛利率差异显著：2025年三季度，谷歌云毛利率�.3%，微软智能云�.6%，而亚马逊AWS仅�.7%。随着AI大模型云收入占比持续提升，硬件调度能力对毛利率的影响将愈发关键。

向量数据库：RAG应用的刚需基础

大模型幻觉问题催生了RAG（检索增强生成）技术的快速普及。由于大模型无法直接记住大量企业私有知识，且缺乏外部知识时容易产生幻觉，RAG成为企业部署AI应用的标配。Gartner数据显示，2024年全球已�%的企业在智能客服、数据分析等场景中部署RAG系统，预�年这一比例将突�%。

报告指出，向量数据库的核心价值在于支撑海量数据的毫秒级检索。在RAG应用推理流程中，系统需要先将用户查询转化为向量，然后在向量数据库中检索最相似的知识片段，最后将检索结果与用户问题一起输入大模型生成答案。这要求向量数据库能在亿级数据规模下保持高QPS（每秒查询数）的实时检索能力。

OpenRouter统计数据显示，�年四季度开始，从API接口接入各类大模型的Token消耗量快速增长，一年时间内翻了�倍，直接拉动了向量数据库需求。

数据库格局重塑：OLTP反攻，实时性为王

生成式AI时代，数据架构正从"分析优先"转向"实时运营+分析协同"。传统数据仓库/湖仓架构设计目标是批量处理和事后洞察，但AI应用需要毫秒级响应，Agent更需要持续获取实时数据并快速决策。这种高频、小批量、低延迟的实时事务处理需求，正是OLTP（在线事务处理）数据库的核心优势。

报告指出，AI时代数据架构从‘分析优先’转向‘实时运营 + 分析协同’...MongoDB 凭借‘低门槛 + 高弹性’，契合中小客户低成本 AI 落地需求，增长弹性突出。Snowflake 与 Databricks...需应对CSP跨界竞争与实时能力短板。

具体来看：

MongoDB：低门槛切入中小客户市场MongoDB作为文档型NoSQL数据库，天然适配非结构化数据存储与高频实时CRUD操作。其收入增速�年二季度出现拐点，2026财年一至三季度，核心产品Atlas收入增速分别�%、29%、30%，显著高于总体收入增速。MongoDB的竞争优势体现在三个方面：首先，其文档型设计摒弃了预定义表结构，以类似JSON格式存储数据，契合AI原生应用需求；其次，通�𻂊月𱓴.2亿美元收购Voyage AI，补齐了向量检索能力，Voyage的嵌入模型在HuggingFace RTEB测评中霸榜第一、第四和第五；第三，新推出的AMP（应用现代化平台）帮助客户从传统关系型数据库迁移至现代文档数据库。2026财年三季度，MongoDB毛利率达�%，预计年底经营利润率将达�%，全年营收增长率�%-22%，几乎接近Rule of 40标准（收入增长率+利润率≥40%）。Snowflake与Databricks：向全栈工具延伸以OLAP为核心的Snowflake和Databricks选择了不同的应对策略——向上下游纵向拓展。Snowflake�年通过Iceberg Tables实现数据湖仓兼容，推出Snowpark支持Python等多语言，并提供Cortex AI和Snowflake ML等AI工具链。2025财年收入�.26亿美元，同比增�.21%，预�财年收�.46亿美元。Databricks则�𻂍月�亿美元收购无服务器Postgres解决方案提供商Neon，补齐OLTP能力，随后推出AI原生数据库Lakebase和Agent Bricks。�年年化收入�亿美元，同比增�%，数据湖仓产品年化收入�亿美元，净留存率�%。两家公司凭借全流程工具链和客户粘性，占据金融、医疗等数据密集型行业核心场景。截�财年三季度，Snowflake年消费�万美元的高价值客户�家，福布斯全�强企业中已�家成为其客户。GPU主导存储架构：技术升级进行时

AI推理进入实时化、PB级数据访问的新阶段，存储IO正从"幕后支撑"变成"性能命脉"。LLM推理的KV缓存访问粒度𱎺KB-4MB，向量数据库检索更是低�B-8KB，且需要支持数千条并行线程的并发请求。

英伟达推出的SCADA（加速数据访问扩展）方案实现了GPU直连SSD，将IO延迟从毫秒级降至微秒级。该方案采用"GPU-交换机-SSD"直连架构，测试数据显示，1颗H100 GPU的IO调度效率是Gen5 Intel Xeon Platinum CPU񊄪倍以上。

这要求向量数据库进行技术升级：采用GPU适配的列式存储、将检索算法改为GPU并行版本、自主管理GPU显存分配。这些技术演进正在重塑数据基础设施的竞争格局。

訪客，請(qǐng)您發(fā)表評(píng)論:取消回復(fù)

網(wǎng)站分類

熱門文章