“英伟达的一家独大,是全球芯片工业的中心议题。”
文 / 巴九灵
继法国、美国、欧盟之后,我国也对英伟达展开了“反独占查询”。
12月9日晚上七点半,国家商场监督管理总局发布了一条公告,英伟达因涉嫌违反《反独占法》和商场监管总局2020年第16号公告,被商场监督管理总局立案查询。
资本商场首先呼应。12月9日和12月10日,英伟达股价别离跌落2.5%和1.47%,市值萎缩了将近1000亿美元。
英伟达被围歼背面,是刚创下前史新高的成绩。
本年第三季度,英伟达营收350亿美元,同比添加94%,创前史新高。
针对本次查询,英伟达公司最新的回应是:“英伟达凭仗实力制胜,这反映在咱们的基准测验成果和对客户的价值上……咱们很愿意答复监管组织对咱们事务的任何问题。”
情绪不是一般的强势。
这次我国的状况,还要先从五年前的一次并购说起。
2019年3月,英伟达发布公告,准备用69亿美元收买以色列的网络设备商迈络思(Mellanox),这是英伟达迄今为止最贵的收买。
可是这个收买项目因涉嫌独占,遭到了一些跨国公司和多国政府的激烈对立,一度被放置。
要害时分,我国投了赞成票,帮了英伟达一把。2020年4月,商场监管总局发布了一份《 关于英伟达公司收买迈络思科技有限公司股权案的附加约束性条件许诺方案》,也便是最初说到的2020年第16号公告。
一家美国公司收买一家以色列供公司,为什么会牵涉到我国政府?
原因在于,根据《反独占法》,不论并购两边来自哪国,但只需他们的年收入在全球逾越100亿元人民币,在我国商场的出售额逾越4亿元,那我国政府就有权监管。
不过,我国的盖章认可是有附加条件的。中心要求就两条,一是禁绝在我国搞绑缚出售;二是六年内有必要依照公正、合理、无轻视的准则,给我国企业供应显卡以及配套设备。
我国签字赞同后,英伟达的收买案才得以正式经过。
但“背刺”的一幕随后呈现,受美国有关部门约束,英伟达高端GPU宣告对我国商场断供,转而对华出售“阉割版”的GPU,明显这违反了之前的许诺。
这是我国商场监管总局依法对英伟达立案查询的导火线。
不止我国,自上一年开端,法国、美国、欧盟的主管部门也相继发起了对英伟达反独占查询。
美国司法部曾向英伟达的竞赛对手和下流客户发放查询问卷,搜集咱们对英伟达的点评。其中有两项指控,引人瞩目:
指控一:英伟达逼迫客户“二选一”。假如某个客户购买AMD芯片,英伟达或许会对你加价,乃至还会削减本来许诺的GPU出货量。
指控二:英伟达强行搭售网线、服务器机架等“边际产品”。英伟达副总裁Andrew Bell从前放话:“谁买了服务器机架,谁就能优先取得GB200。”
根据Jon Peddie Research (JPR)和TechInsights等组织的核算,英伟达在GPU全体商场上占有超80%的商场份额,在数据中心GPU更是夸大地占有了98%的商场。
除了GPU芯片外,在自动驾驶芯片上,英伟达也是独一档的存在。弗若沙利文核算数据显现,2022年英伟达出货量占到全球高算力自动驾驶芯片商场份额为82.5%。
强商场份额之后,是强赢利,对外一张价格3万多美元的H100芯片,本钱加起来还不到3000美元。
超然的商场位置背面,还有英伟达的“科技生态护城河”:英伟达的芯片编程渠道CUDA。
CUDA,是Compute Unified Device Architecture的缩写,翻译成中文便是“一致核算架构”。
全球各大科技公司,都在日常运营中采用了CUDA。例如,特斯拉和其他轿车职业巨子运用CUDA来练习自动驾驶轿车;Netflix在GPU上运转自己的神经网络模型,运用CUDA的功能来增强自己的引荐引擎。
当然,科技巨子们的挑选也有无法的一面。2024年3月,英伟达宣布正告,制止在其他硬件渠道上运转根据CUDA的软件。
一头是过硬暂无人代替的产品,另一头是英伟达有意为了竞赛树立的固若金汤。加上AI浪潮持续如火如荼,好风凭仗力,英伟达于本年10年抵达市值巅峰3.53万亿美元,一度逾越苹果成为全球市值最高。
出资者用脚投票,旁边面反响了英伟达的江湖位置。
竞赛对手乃至客户们的一些小动作,也在佐证英伟达一家独大的局势。
从芯片范畴的对手高通、英特尔、AMD,到英伟达自己的客户OpenAI、谷歌、亚马逊都放风说要加大自研芯片的投入。
2023年9月,高通、谷歌、Arm、英特尔等科技巨子联合成立了UXL基金会。
这个基金会,被媒体解读为“反英伟达联盟”。由于它方案开发一整套能够横跨多种AI加快器芯片的软件和东西,该开源项目旨在使核算机代码能在任何硬件上运转,绕过英伟达CUDA渠道,不受芯片类型的约束。
面对对手的围观,英伟达则仍然活跃“招兵买马”,在对AI草创企业的出资上也是抢先对手。
自2023年生成式AI(人工智能)热潮全面迸发以来,英伟达共参加了74笔融资,累计出资额逾越109亿美元。英伟达经过供应资金来推进企业购买并运用图形处理器(GPU),以稳固其在AI半导体范畴的抢先优势。
奋斗还在进行中,输赢一时难分。
那么怎样看待全球这次反独占查询,国产芯片是否有了兴起的时机?咱们咨询了三位科技专家,无妨听听他们的观点。
1
怎样看待全球这次反独占查询?
何帅
资深科技自媒体人
很多人重视我国这次反独占查询,只重视这个工作中的“查询”,可是少重视了两个字,即“依法”。
政府在发布公告时,特别强调“依法”对英伟达进行反独占查询。
依法,第一是依反独占法的根据;第二,则是四年前英伟达收买迈络思科技时,我国商场监管总局与英伟达签署过附加约束性条款,要英伟达保证对我国商场的正常供应和公正竞赛。
英伟达收买迈络思后,简直独占了AI人工智能这个巨大数据中心的中心产品商场,保证了必定优势,把握了整个商场的定价权,英伟达本身的解决方案就能够彻底掩盖整个商场,竞赛对手与其进行议价的杠杆也不复存在。
再来看赏罚办法,首先是罚款,仅仅处分金额现在还不太好说,是上一年度出售额10%的两到三倍的处分,终究仍是需求视查询成果而定。
其次,假如不配合查询,或许会对英伟达的商务活动进行约束,乃至有或许禁售英伟达的产品。
这次反独占查询,其实归于打蛇打七寸的动作。
我国在制止特别的资料出口后,英伟达一向比较慌,这段时刻一向在越南、泰国,马来西亚、印尼等地来回散步,便是想寻觅不受我国资料出口约束,又能够向我国输出产品的第三方国家。
我国也看出来了,英伟达便是想锁死高端芯片,然后让自己的低端芯片进入国内,和国内的刚起步开展的AI芯片企业进行竞赛,所以我国的意思也很清晰,咱们不需求低端芯片,要么卖给咱们高端芯片,要么就不要在我国商场开展。
当然这种约束,不会说让他直接退出我国商场,只能说是依法对其进行反独占查询,底子意图仍是为咱们自己的AI芯片企业供应好的开展环境,或许说经过博弈取得高端芯片来支撑国内AI技能的开展。
英伟达这次在越南建了一个AI智能芯片的研制中心,相当于提早把咱们国产芯片出海的路途给锁死了。
等英伟达在我国周边布局完,像华为、寒武纪等这些芯片企业,今后该怎样出海呢?
至于为什么各国都在对英伟达进行反独占查询,首要由于英伟达在全球的GPU商场份额的确太重,能到达98%以上,远远逾越AMD和英特尔等半导体企业,处于必定独占的位置;其次,英伟达在高端GPU商场,也处于必定的商场主导位置。
因而,对英伟达的反独占查询必定首要会集在惯例的几项,第一是看产品是否存在绑缚出售,第二是看GPU产品的分配是否具有商场相等性,比方优先供应某商场,或许制止供应某商场,都归于独占的手法。
张孝荣
深度科技研究院院长
这次我国对英伟达的反独占查询,我认为是根据保护商场公正竞赛次序的惯例监管行动。
2020年英伟达以69亿美元收买以色列迈洛思公司,在承受我国检查时做出了一些许诺恪守的条件(这些条件听说6年内有用)。
现在查询是对企业行为后续监管的一部分,监管组织需求保证企业恪守了收买时的许诺,一旦发现违约,便会发动查询。
关于英伟达而言,查询期间或许面对事务拓宽受限、客户协作的不确定性添加、名誉受损等影响,若终究被确定存在独占行为,或许面对巨额罚款、事务调整乃至商场份额被重新分配等结果。
反独占查询不是为了架空大企业,更不是为了关上我国大门。反独占查询关于整个科技职业来说是一个重要的制衡机制。它不只关乎单个企业的开展,更影响着职业立异和开展的走向。
职业领导企业在寻求商场份额和商业利益的一同,需求愈加注重合规运营。
AI是许多国家的战略规划,跟着AI技能的开展,GPU的需求大增,英伟达凭仗技能和商场先发优势占有了约9成的商场份额,其商业决议计划和商场行为遭到更多重视和审视。
至于欧盟最早查询,或许是由于欧盟在反独占监管方面一向较为活跃主动,且其内部有很多科技企业和工业用户受英伟达商场行为的潜在影响。
这些查询的影响是多方面的,一方面促进英伟达愈加标准本身行为,另一方面也或许改动全球 GPU 及相关商场的竞赛格式,为其他竞赛对手供应更多时机,一同也给整个职业敲响了反独占的警钟,推进职业朝着更公正竞赛的方向开展。
2
AI芯片的国产代替,能否借这次反独占查询兴起?
胡延平
FutureLabs未来实验室首席专家
英伟达的商场份额及其位置首要是天然构成,既有AI 2.0、大模型等范畴高速开展对算力需求的拉动,也有英伟达本身堆集的技能优势。
首要优势体现在四个方面,一是芯片架构的快速迭代才干;二是CUDA软硬协同与开发生态;三是在AI、机器人、自动驾驶、矿机等笔直范畴的全线AI核芯、全栈解决方案才干;四是算力特别算力集群更具功率和全体性价比。
短期内咱们或许能在不同方面取得一些部分时机,但暂时还无法全体撼动。
现在来看,英伟达并未片面完成独占,也并非乱用商场分配位置。实际上人工智能范畴其它芯片、算力基础设施供应商现已为数不少,仅仅功能与软硬件生态不及英伟达。
当时对英伟达的查询,有必定制衡、博弈颜色,我猜测终究大概率会以不严厉追查作为完毕。
AI算力基础设施的竞赛格式假如要有大的改变,严重变数或许首要来自于立异架构、新原理,比方新创建的一些专为AI而生的芯片企业。未来能代替英伟达的,或许不是追随者、仿照者。
我国芯片年进口额现已挨近3万亿,年出口额行将打破1万亿。这意味芯片工业的大盘,是一个彼此需求彼此依存彼此协作的生态。芯片工业上、中、下流,有很多我国的草创或立异企业,在这个生态里生计开展。
其根本盘关乎供应链安全,关乎很多科技企业包含芯片企业的生死存亡,关乎高科技立异生态。所以这个大盘要稳住。
芯片大盘、芯片的国产化发展与代替、博弈平衡感的找寻,这三件事需求放在一同考虑,而不能仅仅把第二第三件事放在一同看。
切勿从单向脱钩变成双向加快脱钩,会对芯片工业大盘晦气。从这个层面来看,反独占仅仅一切工作里边的一件工作,不用以点带面,言论也不用过度用力。
何帅
资深科技自媒体人
这次反独占查询,对国产芯片的代替潮,会有必定推进效果,可是国产AI芯片,在功能上与英伟达的产品距离是十分巨大的。
现在英伟达的A100芯片,根本上是现在国产芯片的对标的首要目标。尽管华为的昇腾910B,功能能够与英伟达A100相等,可是美国要求英伟达禁售的H100,其功能是A100的2—3倍,而Blackwell B200又是H100的5倍,相当于英伟达一片B200,能够与10—15片的华为昇腾910B相等,可见这个距离有多大。
现在国内猎奇多少年才干代替乃至逾越英伟达的问题,实质其实是个体系性问题。
由于芯片问题,涉及到第一个环节是芯片的规划、研制,第二个环节是封装,后边还有制作、出产等各个环节,即便咱们规划出来了芯片,可是没有台积电代工,没有更先进的光刻机,就很难出产7纳米以下的更先进制程的芯片。
即便咱们现在也能够部分解决7纳米芯片的问题,可是芯片的产能和技能成熟度都有待提高。国产的寒武纪思元590、华为的昇腾910B,产能都需求排队。
本篇作者 | 饶祖分 | 梅浩宇 | 职责修改 |何梦飞
主编 | 何梦飞 | 图源 | VCG
英伟达是AI芯片商场遥遥*的赢家,这是毫无争议的。但现在,多个厂商正在经过各种方法,向英伟达建议冲击。
AI 芯片草创公司融资,与 Nvidia 比赛
一家旨在与 Nvidia (比赛的草创芯片制作商周二标明,已融资 2,350 万美元,用于扩展其美国产人工智能芯片的出产。
参加此轮融资的出资者包括以支撑埃隆·马斯克的公司而知名的 Valor Equity Partners、Atreides Management、Flume Ventures 和 Resilience Reserve。
Positron 的芯片用于推理,即运用 AI 模型的阶段,而不是用于练习 AI 模型。现在,对练习芯片的需求更高,但剖析师猜测,跟着更多 AI 运用的布置,对推理芯片的需求或许会逾越练习芯片。
跟着企业尽力应对 AI 本钱开支、不断上升的本钱和供货商确认,Positron 为客户供给了高功用、节能的代替计划。Positron 的 Atlas 体系现在在推理方面完结了比 Nvidia H100 GPU 更高的 3.5 倍每美元功用和 3.5 倍的功率功率。Positron 的 FPGA 服务器运用内存优化架构,带宽运用率到达 93% 以上(而 GPU 仅为 10-30%),支撑万亿参数模型,一起供给与 Hugging Face 和 OpenAI API 的即插即用兼容性。与 H100/H200 设置比较,这些体系的推理速度提高了 70%,功耗下降了 66%,将数据中心本钱开支减少了 50%。
除了规范之外(在受全球政治和经济紧张局势影响的生态体系中,这些规范相同重要),该公司的*代 Atlas 体系彻底在美国规划、制作和拼装。
Nvidia 应战者 Groq 融资15 亿美元
美国人工智能芯片制作商 Groq 陈述称,该公司已获得沙特阿拉伯 15 亿美元的许诺。凭仗这笔资金,这个中东国家期望扩展先进人工智能芯片的供给。
这家硅谷公司由前谷歌职工、TPU 的创造者乔纳森·罗斯创立,以出产优化速度和履行预练习模型指令的推理芯片而知名。
剖析师以为 Groq 是Nvidia 的潜在比赛对手。后者现在是 AI 革新的*赢家。凭仗 Groq 及其自主研制的言语处理单元 (LPU),一个强壮的比赛对手现已酝酿已久。15 亿美元出资的音讯进一步证明了这一观念。
LPU 计划于 2024 年头推出。虽然其他潜在的 Nvidia 比赛对手专心于练习和推理,但 Groq 的方针十分清晰:Groq 是快速 AI 推理。经过与 OpenAI 兼容的 API 链接,该公司旨在招引用户远离运用 GPT-4o 和 o1 等关闭模型。
言语处理单元 (LPU) 的开发由前谷歌 TPU 规划师 Jonathan Ross 领导。LPU 于 2024 年头推出,可在线试用。与其他潜在的 Nvidia 比赛对手瞄准练习和推理比较,Groq 的方针很清晰:“Groq 是快速 AI 推理”。得益于与 OpenAI 兼容的 API 衔接,该公司的方针是让用户不再运用 GPT-4o 和 o1 等关闭模型。那么,与 Meta 和 DeepSeek 等公司协作的时机就很大了。
这现已标明,Groq 或许并不计划直接与 Nvidia 比赛。自从咱们一年前报导该公司以来,咱们留意到像 Groq 这样的公司更乐意直接针对终究用户,而将硬件本身笼统出来。终究方针是尽或许下降推迟。假如您仅仅想在没有本地硬件的状况下快速运转 Llama 3.3 70B,那么这或许是正确的产品。鉴于 Groq 没有供给有关首要硬件买卖的清晰信息,咱们只能假定除了国家试验室的试验和经过其 API 触摸 Groq 的客户之外,这样的买卖并不多。
但是,LPU 是另一个调整 GPU 以习惯企业实践核算需求的比方。“Groq LPU 架构始于软件优先准则”,该公司标明,这导致了专用于线性代数的芯片的诞生——“人工智能推理的首要要求”。实践上,编译器现已确认了芯片布局,没有路由器或控制器阻挠硬件与本身通讯。用 Groq 的话来说,LPU 是一条“装配线”或“传送带”,将数据从其各种片上内存模块和芯片中转移出来。这是为了防止该公司所谓的 Nvidia 的“中心辐射”办法所固有的 GPU 开支。
终究的结果是,该芯片能够到达 750 TOPS。每个芯片包括 230 MB 的 SRAM 和 80 TB/s 的片上内存带宽。鉴于一个 GroqChip 仅仅 GroqRack 核算集群的一部分,这些根本规范终究并不是该公司最杰出的。它最知名的便是快速推理。或许大规划的人工智能选用将使 Groq 找到自己的利基商场,并向国际展现它的成功。到现在为止,咱们只能依据编撰本文时对根据 Groq 的 LLM 宣布的 1,425,093,318 个恳求来判别。
Meta 欲收买韩国 AI 芯片公司 Furiosa AI
据报导,Meta Platforms(Meta)正在考虑收买韩国AI半导体规划草创公司Furiosa AI。
11日(当地时刻),美国经济媒体《福布斯》征引音讯人士的话报导称,Meta 正在商谈收买 Furiosa AI 事宜,商洽最早或许在本月完结。
Furiosa AI 是一家规划数据中心 AI 半导体的无晶圆厂公司(专门从事半导体规划),由曾在三星电子和 AMD 任职的 CEO 白俊浩于 2017 年创立。继 2021 年推出* AI 半导体“Warboy”后,该公司于上一年 8 月推出了下一代 AI 半导体“Renegade”(RNGD)。
现在已有多家企业对Furiosa AI体现出爱好,据悉Meta是其中之一。有剖析以为,Meta收买Furiosa AI是为了稳固本身AI芯片研制才干。
现在,Meta 正花费巨额资金批量收购英伟达 AI 芯片,并与博通协作开发定制 AI 芯片。该公司本年计划出资高达 650 亿美元(约 93 万亿韩元),包括用于 AI 研讨和新数据中心的建造。
Furiosa AI 迄今已筹措约 1.15 亿美元(约 1671 亿韩元),并于本月初从风险出资公司 Krit Ventures 获得了额定的 20 亿韩元出资。Naver 和 DSC Investment 参加了初始融资,据报导,首席履行官 Baek Joon-ho 持有该公司 18.4% 的股权。
OpenAI 自研芯片,应战 Nvidia
大型科技公司和人工智能草创公司仍然在很大程度上依靠 Nvidia 的芯片来练习和运转*进的人工智能模型。但是,这种状况或许很快就会改动。OpenAI 正在带头展开一项大规划的全职业尽力,将更廉价的定制人工智能加快器推向商场。假如成功,这一行动或许会削弱 Nvidia 在人工智能硬件范畴的主导位置,使该公司堕入更困难的商场。
OpenAI 行将推出其*定制规划的 AI 芯片。路透社估计,该公司将在未来几个月将芯片规划发送给台积电进行验证,然后于 2026 年开端量产。该芯片已进入流片阶段,但 OpenAI 或许需求许多职工才干在 AI 加快器商场完结彻底自给自足。
这款定制芯片由 Richard Ho 领导的“小型”内部团队规划,他一年多前脱离谷歌参加 OpenAI。这个 40 人团队与 Broadcom 协作,Broadcom 是一家备受争议的公司,在创立定制 ASIC 处理计划方面有着杰出的记载。两家公司于 2024 年开端商洽以芯片为要点的协作伙伴关系,终究方针是打造新的 AI 芯片。
业界音讯人士称,OpenAI 的规划既能够练习也能够运转 AI 模型,但该公司开端只会将其有限量地用于 AI 推理使命。台积电将在其 3nm 技能节点上制作终究的芯片,OpenAI 估计它将包括必定数量的高带宽内存,就像任何其他首要的 AI(或 GPU)硅片规划相同。
虽然在未来几个月内 OpenAI 的芯片在公司基础设施中只扮演非必须人物,但在不久的将来,它或许会成为一股严重的颠覆性力气。新规划首要需求顺畅经过流片阶段,而 Ho 的团队需求修正在初始制作测验中发现的任何硬件过错。
许多科技公司都在活跃尽力用自己的定制 AI 加快处理计划代替 Nvidia 产品,但这家 GPU 制作商仍占有着约 80% 的商场份额。微软、谷歌、Meta 和其他大型科技巨子正在招聘数百名工程师来处理芯片问题,而 OpenAI 在时刻和职工规划方面都排在终究。
简而言之,OpenAI 需求的不仅仅是现在由 Richard Ho 领导的开发 AI 芯片原型的小型内部团队。在内部,该芯片项目被视为不断开展的 AI 范畴未来战略行动的要害东西。在等候台积电的规划验证的一起,OpenAI 工程师现已在计划更先进的迭代,以完结更广泛的运用。
英伟达的缺点,芯片公司群起而攻之
虽然没有哪家公司像 Nvidia 那样,市值飙升至数万亿美元,但 IBM 和(最近)英特尔等公司知道强者的确会式微。当一个人处于*时,自满情绪就会浸透进来。当 Nvidia 故事中一切要害人物都早早退休享用丰盛的退休金时,或许会发生人才流失。
Nvidia 的另一个潜在缺点在于其实践产品:GPU。它们是功用极端强壮的通用并行处理器。它们被规划为比国际上任何常见的处理器都更能处理并行化。但是,它们好像现已到达了极限。最新的两代芯片(Ada Lovelace 和 Blackwell)现已到达了台积电的*标线尺度。
换句话说,实践硅片无法逾越其当时规划。Blackwell 应该经过交融芯片来处理这个问题,但这些现已导致了价值昂扬的推迟。它们或许也会呈现在下一代 Rubin 架构及今后的架构中。除此之外,GPU 的运转方法存在固有的开支,而这些开支是潜在比赛对手无法减少的。GPU 具有多面性,之所以被选为 AI 引擎,并不是由于它们被规划为高效处理 GenAI 作业负载,而是由于它们是手头上最挨近的核算单元,并且具有可扩展性。
推翻 Nvidia 的路途是选用特定的 GenAI 中心架构。这种芯片本质上是为 AI 革新量身定制的,具有随之而来的一切功率和速度。他们的首要优势是简略地脱节一切 GPU 开支并砍掉使 Nvidia 硬件如此通用的任何不用要的硅片。有些公司正在寻求这样做。
一、Cerebras:晶圆级的“芯片上的模型”
Cerebras Systems做出的许诺的确很高。这家美国公司具有“国际上最快的推理速度”——比 GPU 快 70 倍——已成为 Nvidia 最杰出的代替品之一。假如有人以为 Blackwell 芯片很大,那就看看 Cerebras 的庞然大物吧。他们的处理器是“晶圆级”的。这意味着它们是矩形硅片,巨细简直与代工厂规范 300 毫米晶圆尺度答应的巨细适当。
单个 Cerebras WSE-3 带有 44GB 的片上内存,大约是 Nvidia H100 的 880 倍。真实的胜利是它的内存带宽。这一般是 GenAI 练习和推理的瓶颈:每秒 21 PB,这个数字比 H100 高出七千倍。当然,这都是理论上的吞吐量。即便是所谓的同类基准测验也无法告诉您需求多少优化才干运用这些强壮的规范。
Cerebras 的客户名单令人形象深入,但更让人对公司的未来充满信心。Meta、Docker、Aleph Alpha 和纳斯达克等公司都在运用该公司的技能。这些或许与 Cerebras 的一项或多项产品有关。这些规模从一应俱全的 AI 模型服务到按小时付费或按模型付费的计划,以进行大规划练习、微谐和/或推理。Llama 3.3 系列模型、Mistral 和 Starcoder 成为与 Cerebras 兼容的 LLM 的模范,并具有真实的影响力。
Cerebras 极有或许还需求逾越迄今为止在六轮融资中筹措的 7.2 亿美元的资金。考虑到 Nvidia 每年在研制上花费高达 800 亿美元,其晶圆级比赛对手终究的 IPO 或许会缩小这一距离。终究,功用和功率也或许对 Cerebras 有利。
清楚明了的是,许多的片上内存使芯片规划比经过以太网或 Nvidia 自己的 InfiniBand 衔接在一起的 GPU 集群更挨近 AI 模型所需的养分。终究,权重和激活就在那里,以挨近光速的速度供给,而不用经过相对缓慢的互连。咱们在这里议论的是纳秒的差异,但仍然是数量级的。当你把几个月的 AI 练习和推理加在一起时,这种距离就变得巨大了。
二、SambaNova:数据是要害
另一个应战者则走上了一条不同的架构道路:SambaNova。四年前,在 ChatGPT 呈现之前,该公司现已积累了 10 亿美元。与 Cerebras 相同,现在的产品也直指 Nvidia 的 GPU 处理计划,并杰出了其固有的 AI 缺点。与此一起, SambaNova将其 RDU(可重构数据流单元)列为“为下一代 AI 作业负载(称为 Agentic AI)而构建”。换句话说,该公司环绕模型的核算图来安排其硬件,而不是依靠次序指令。
据称,单个 SN40L RDU 的内存中能够包容“数百个模型”。这归功于其巨大的 1.5 TB DRAM、64GB 同封装 HBM 和超高速 520MB SRAM 缓存。单个 SN40L 节点能够以每秒逾越 1TB 的速度传输数据。从表面上看,Nvidia 的最新一代 GPU Blackwell 已到达 8 TB/s 的速度。虽然如此,就现在状况而言,SambaNova 宣称其数据流架构可完结地球上 Llama 3.1 405B 上最快的推理速度。据该公司称,RDU 在处理数据方面的内置功率意味着,在“一小部分占用空间”的状况下,能够获得比传统 GPU 更高的功用。
现在尚不清楚 SambaNova 在企业中的实践布置状况。阿贡国家试验室和劳伦斯利弗莫尔等国家试验室好像很支撑,一些专门针对医疗保健的公司也是如此。SambaNova 的终究方针是为企业供给本地 AI 练习处理计划。虽然资金雄厚,但咱们需求看到更多大牌公司涌向 SambaNova,才干愈加确认其长时间可行性——不管是否经过官方公告。
三、Etched:一款操纵商场的transformer ASIC
与变压器模型最挨近的类比是transformer ASIC。正如 Nvidia 应战者 Etched 对其 Sohu 芯片的描绘,变压器是“蚀刻在硅片上的”。它看起来很像 GPU,其 VRM 环绕着硅片,呈矩形附加卡形状。8 个变压器好像比 8 个 Nvidia B200 GPU 的吞吐量要小,更不用说 8 个前期的 H100 了。终究结果是:运用 Llama 70B 每秒可处理 500,000 个令牌。
144GB HBM3E 仅向单个“中心”供给数据,实践上是将 LLM 的架构转移到硅片上。听说支撑乃至到达 100 万亿个参数模型,远远超出了现在*进的 LLM。彻底开源的软件仓库应该会招引那些不乐意坚持运用 Nvidia 关闭的 CUDA 花园的人。
至关重要的是,Etched 击中了Nvidia 的把柄。如前所述,GPU 现已到达了极限。假如不选用一些技巧,比方构建一般达不到硅片速度的互连,它们就无法开展。并且,关于一些比赛对手来说,它们并不像 Etched 所做的那样专心于算法。但是,有一件事仍不清楚,那便是搜狐终究何时会呈现。在 2024 年中期引起轰动之后,工作变得适当安静。
四、AMD、英特尔、谷歌、亚马逊……
咱们应该留意其他一些更为人熟知的潜在 Nvidia 比赛对手。最显着的是 AMD,它将其 Instinct MI 系列加快器打造为最挨近 Nvidia GPU 的嵌入式产品。该公司的一些类型乃至将 Instinct 与 Epyc 集成到芯片规划中。这交融了 GPU 和 CPU 功用,可供给有出路的一体化 AI 套件。问题在于,其 ROCm 软件好像未被充沛选用和注重。CUDA 占主导位置,Nvidia 也是如此。为什么要为不像其比赛对手那样无处不在的芯片开发结构或模型管道?
英特尔也面对相似的问题,乃至更为严重。曩昔两年,英特尔的 Gaudi GPU 产品线并未发生推进 AMD 股价上涨的那种需求。除此之外,跟着首席履行官帕特·基辛格 (Pat Gelsinger) 的离任,英特尔好像失去了方向,在其他细分商场面对严峻应战时,该公司在 AI 方面体现得毫无作为。假如没有成绩*优势或 AMD 所具有的应战者位置,改动命运的期望就很迷茫。
与此一起,云供给商是 Nvidia *的客户之一。他们都期望脱节对 AI 芯片巨子的依靠。他们正在经过打造自己的代替计划来完结这一方针。谷歌多年来一向这样做,其张量处理单元 (TPU) 是那些期望在云端运转 AI 的人的*。但是,假如它们只能经过 Google Cloud 获得,它们就永久不会无处不在。
AWS 令人形象深入的 Trainium 芯片和 Inferentia 系列也是如此,它们都可经过 AWS 获得。这些产品也永久不会在亚马逊具有的数据中心之外找到。谷歌和 AWS(微软或许会仿效)需求构建一个开发人员仓库来笼统架构。这一般意味着向 Nvidia 选项的可移植改变永久不会悠远。终究,只有当他们原本就有或许挑选你的仓库时,你才干招引首要受众。
定论:看不到止境
Nvidia 的代替品还有许多。咱们能够持续评论 Graphcore,自 2023 年呈现可怕的音讯以来,咱们就没有再议论过它。或许 Tenstorrent,它正在开源 RISC-V 架构上构建 AI 芯片。上面看到的挑选仅仅整个比赛环境的一小部分。在我国,也有寒武纪、海光、华为、燧原、摩尔线程、沐曦、天数智芯和壁仞等一批芯片公司对英伟达建议总攻。咱们以为,在硬件范畴,总有时机呈现一个意想不到的提名人,就像 DeepSeek 在 AI 模型制作者比赛中所做的那样。
咱们将回到开端的当地。Nvidia 在 GenAI 商场牢牢占有主导位置,尤其是在练习方面。虽然上述 AI 芯片草创公司展现了高规范,但咱们没有看到任何能够阻挠一般 AI 基础设施决策者购买 Nvidia 的东西。任何代替计划都必须以超卓的功率许诺、*的功用冠军或两者兼而有之来向前跨进。
即便如此,现任者也不会简单甩手。Nvidia 现已忙于浸透没有进入的 AI 范畴。除了在消费机器范畴的主导位置外,它现在还经过 Project Digits 提出了彻底专用于 GenAI 的开发套件。与此一起,Jetson Nano 服务于边际布置。没有比赛对手,乃至连 Nvidia 最挨近的比赛对手 AMD 都没有这种灵活性。这将协助该公司渡过未来的风暴,即便它需求抛弃 GPU 的万能位置才干获得进一步的成功。当你有 (约) 3 万亿美元的市值支撑时,转向专用的 transformer/GenAI 处理器是最简单做到的。
【本文由出资界协作伙伴微信大众号:半导体职业调查授权发布,本渠道仅供给信息存储服务。】如有任何疑问,请联络(editor@zero2ipo.com.cn)出资界处理。
来历:出资界英伟达是AI芯片商场遥遥*的赢家,这是毫无争议的。但现在,多个厂商正在经过各种方法,向英伟达建议冲击。AI 芯片草创公司融资,与 Nvidia 比赛一家旨在与 Nvidia (比赛的草创芯...