

国内全自研GPGPU立异企业「北京行云集成电路有限公司」(以下简称"行云")告示一语气完成Pre-A及Pre-A+多轮融资,融资金额超4亿元。本轮由五源成本、赛富投资基金、春华成本集合领投,北京、江苏等处所国资、佰维存储、金沙江集合带动群众有名GPU企业首创东谈主家办、创维成本等产业成本跟投。云岫成本一语气多轮处事并担任下一轮独家融资财务照顾人。
行云缔造于2024年,专注面向大模子推理的新一代GPGPU芯片。时间上打造超大显存规格、极致CUDA兼容的全自研居品,公司想法直指AI大模子推理的普惠化。
首创东谈主季宇博士,清华大学计较机系博士,"华为天才少年"盘算推算成员,曾在华为海想深度参与昇腾AI芯片的编译器与架构研发。CTO余洪敏博士,中科院半导体所博士,曾深度参与包括两款国产AI芯片在内的多款芯片的研发与量产,领有十余款芯片得手流片教化。一位是站在算法×编译器接壤处的架构师,一位是十余次走完"实验室到量产"全经过的芯片老兵——这恰好对应了行云时间道路的两个重心:架构判断要不要赌错、工程委派能不可扛住。
要通顺行云芯片的逻辑,必须先承认一个正在被业内默许、但还未被公众充分订价的事实:2026年的大模子,依然不再是"诈欺",而是"坐褥而已"。
从Chatbot到Agent,从一次性问答到长链路、多轮自主履行的任务委派,模子正在形成常识职责的底层引擎。一花旦色从"居品"更动为"坐褥而已",对于"谁领有它、谁订价它、谁被它替代"的盘问就避无可避。而当这个问题向下追问到基础才调层,三个结构性矛盾坐窝透露。
矛盾一:从玩物到器用的领域,门槛是千亿参数
Chatbot时期,7B、13B的小模子拼集够用。但果真能被Agent场景委以重担的模子,险些全部鸠集在200B–700B的千亿参数区间——只须这个量级,才能撑得住超长崎岖文、安适的器用调用链和可继承的幻觉率。
用户花钱投票依然把这少许说得很清醒:2026岁首,Anthropic以行业最高的API订价把营收推到300亿好意思元ARR,其中Claude Code单居品ARR即达25亿好意思元。"最贵的模子反而最收获",正值讲明在"果真颖异活"的场景里,模子质地是通盘硬门槛,而这谈门槛,今天的花消级硬件够不着。
矛盾二:成本结构性失衡,大厂和用户被同期挤压
为了把千亿模子留在云霄,OpenAI、Anthropic、Google 等头部厂商曩昔两年的成本开支呈指数级增长——更大的集群、更贵的HBM、更密的液冷机房。这些成本最终势必向用户端传导:订阅制的代价是限流、降智、岑岭列队,外洋API计费的代价是Agent长链任务下指数级增长的Token账单,月支转移辄数千好意思元。
这是一场分袂称的双向挤压:大厂在赌我方能撑到回本那一天,用户在赌我方付得起下一张账单。任何能在这局以外另开一条算力供给旅途的玩家,都会给现在的产业界带来新的想考。
矛盾三:数据主权与岗亭反噬的分袂称交换
云霄API在数据流进取是单向透明的。用户每一次与Agent的深度配合,都在把业绩Know-how免费转交给模子公司。外洋大厂一边组建"反蒸馏定约"阻碍所谓竞争敌手,一边堂堂皇皇地从通盘效户身上蒸馏教化。"个东谈主教化→模子才调→岗亭替代"的闭环就此闭合。
对别称常识职责者来说,这依然不仅仅秘密问题,而是活命问题。只须推理还都备构筑于云霄,数据和坐褥关连的主权就总有归零的一天。
上述矛盾,曩昔并非没东谈主看到,但在稠密Transformer时期,"把千亿模子搬回腹地"在物理上就不缔造——稠密模子每次前向都要全量激活,对带宽的需求让HBM成为不可绕开的刚需,花消级的LPDDR/DDR根底进不了场。
而MoE稀罕架构的莳植,把这套法则改写了。MoE用更大的总容量装下更多"众人",但每次推理只激活一小部分。效果是瓶颈从"极致带宽"迁徙到"超大容量",单次激活的算力和带宽需求骤降。带宽需求第一次回落到LPDDR/DDR的"甜点区间"。再配合Attention的稀罕性和超长崎岖文的需求,算力,容量,显存带宽,互联的关连在不休发生蜕变。
换句话说,是算法演进给硬件留出了一个历史性的窗口期。能不可踩准这个窗口,决定了一家芯片公司是顺着潮流走照旧逆着潮流走。
行云的时间旅途,不错拆成"介质替换"和"系统级工程"两层。
介质层面,行云废弃成本不菲的HBM,转而遴荐LPDDR乃至NAND(SSD颗粒)行为显存介质,使显存成本下落1到2个数目级。低成本介质单颗粒带宽较低,行云用多颗粒、多通谈并行架构把全体带宽堆叠到TB级,匹配大模子推理的综合需求。
系统层面,公司通过Prefill / Decode分离(PD分离)、KV Cache稀罕化、散播式推广、极致CUDA兼容等技能,在系统级构建软硬件协同壁垒。CTO余洪敏强调,行云的联想优先级依然从"追求单芯片极致性能"转向"从板级系统角度追求可推广性与供应链安适性"——通过散播式联想与教训工艺、低成本存储的组合,在系统层面杀青成本最优与体验一致。
耗损到居品,等于行云行将推出的首款花消级桌面计较居品,CUDA极致兼容,面向花消级价位点联想。它不是一张被剪辑过的计较卡,而是从底层就为"在端侧跑千亿模子"再行联想的芯片,让用户不错在万元价位高综合开动万亿级别参数的大模子。
行云征引一个产业类比:当19世纪的交通革射中铁路刚出现的期间,英国产生了纷乱的铁路泡沫,以为通盘的谈路将通过铁路流通,并最终留住了贸易模子的崩溃出清。但终末并不是只靠联接大洲的铁路主线完成通盘的交通需求,更依赖于深刻毛细血管的汽车与公路。今天的AI算力网罗也站在相同的分岔口——是走向超算阁下的"中心化铁轨",照旧走向端侧普惠的"散播式公路"?
行云给出的谜底是后者。在公司的居品道路里,首颗芯片仅仅第一个锚点。那时间旅途进一步推向NAND介质,端侧算力拓荒的价位有望下探到千元级,遮蔽主流千亿乃至万亿参数模子,并在单用户场景下反超云霄体验,最终让AI算力拓荒的莳植率接近今天的智高东谈主机。
与此对应,季宇明确示意,公司本年的中枢想法是完成芯片量产并尽快推向商场,以芯片居品行为贸易化的主要持手。OpenClaw 和Hermers这类Agent平台的酣畅级传播也依然印证了卑劣需求——商场对"花消级硬件承载高质地AI"的渴慕赌钱赚钱官方登录,依然具备实质购买力。
