您的位置:主页 > 公司动态 > 公司新闻 > 公司新闻

哪家我国芯片公司能「吃下」大模型?

ChatGPT火爆时,浩然被两股对立的心情夹在缝隙:一面是振奋,一面是哀痛。

作为一名AI芯片公司的高档软件工程师,ChatGPT大迸发前夜,浩然对自己参加研制的大算力AI芯片充满决心,他信任为特定AI算法研制的专用芯片,比较英伟达通用的GPGPU在平等功耗下能够有2倍的功能优势,价格能够做到50%乃至更低,只需软件体会不太差,客户必定会买单。

可ChatGPT掀起的大模型热潮,让浩然和同行们都开端考虑,AI算法是否有从百家争鸣走向大一统的或许。

这意味着,曩昔为特定范畴AI算法研制的专用AI芯片,由于核算负载特性的急剧改变,之前的性价比优势会被显着削弱,英伟达兼具高显存带宽和高互联带宽特性的通用GPU优势将会进一步扩展,想要和英伟达竞赛的难度更大了,这让浩然有些失望。

但从自己作业的视点,AI算法的大一统能够让硬件工程师和软件工程师作业的方针都更明晰,作业会难度下降,这是浩然喝彩的理由。

“我不信任英伟达能一向坚持*。”芯片架构师宇阳坚持决心,“GPU不见得是大模型的*解,我国AI芯片公司里必定会有能和英伟达掰手腕的公司。

国内许多的AI大芯片公司,谁能吃下大模型商场?

01

芯片公司想喝口大模型的汤也不简单

就算是英伟达长久以来的竞赛对手AMD,在英伟达大口吃AI大模型肥肉的时分,AMD也没喝上多少汤。归纳实力不及AMD的国内草创公司们,就算嘴上高呼赶超英伟达,心里也清楚能做互联网公司的第二供货商,喝上大模型的汤便是巨大的成功。

大模型火爆,全世界的公司都在找英伟达买GPU。原先价格3万多美元的最新款H800 GPU,就算终端价格加价1万多美元仍旧一卡难求。这种求过于供的盛况直接将英伟达的市值面向1万亿美元,发明了全球半导体公司市值的新纪录。

“客户很古怪,就算AMD有功能不错的GPU现货,许多想要购买H800 GPU的人仍旧不为所动。”一家AI芯片公司的高管道出想要逾越英伟达的难度。

技能身世,现在已是芯片公司高管的洪杰深谙其间的道理,“客户对AMD的要求和对英伟达产品的要求相同,有的时分乃至更严苛,客户乐意买单的代替产品是比英伟达的GPU廉价,体会还要差不多。

“收购英伟达GPU量*的公司还没有第二供货商。”洪杰感叹,“不得不供认英伟达的强壮,现阶段不要说逾越英伟达,成为二供都很难。

困难的作业往往收益很高,像是字节跳动这类大客户,每年收购英伟达GPU的订单金额就挨近百亿元。只需能从英伟达嘴里分到几十亿的商场份额,就满意养活几家国内的AI芯片公司。

02

「跟从派」和「立异派」争抢大模型

国内AI大芯片草创公司十分特别,有跟从英伟达道路做GPGPU的草创公司,能够叫他们“跟从派”。也有另辟蹊径,规划AI专用芯片(也便是DSA,Domain Specific Architecture,范畴专用架构)的“立异派”。

这是一个十分风趣的现象,由于在国外只要立异派没有跟从派,也便是没人挑选走GPGPU的技能道路创业。

“所有人都知道,沿着英伟达的途径不或许逾越英伟达,这几乎是不证自明的作业而且,西方的创业者更喜爱做推翻式立异。”洪杰剖析,“寻求推翻式立异的架构师们对AI核算问题的了解与界说不同,天然也计出了各种不同的AI芯片架构。”

谷歌界说的TPU专用性很强,是一个典型的范畴专用芯片DSA。被誉为全球AI芯片独角兽的SambaNova Systems挑选了可重构架构。Cerebras Systems走了一条直接用晶圆做芯片的路。英国AI芯片独角兽Graphcore发明了共同的IPU架构。

国内也有多家走DSA途径创业的AI大芯片公司,比方寒武纪、昆仑芯、燧原科技、瀚博半导体、墨芯人工智能。

“挑选DSA途径创业还有一个优势,中心IP规划门槛相对较低。”芯片编译器专家德辉打了个比方,

用搭乐高来了解规划GPGPU和DSA的难度,规划GPGPU便是面向18岁以上玩家的乐高,有许多精密的小模块,拼起来难度大但著作很精巧。规划DSA就像是面向5岁的乐高,模块更大拼起来更简单。

“DSA的门槛能够很低,上限也能够很高。”宇阳说,“ GPU也是一个DSA。开始的GPU图形专用加快芯片,没有可编程性,后来英伟达为其添加了通用性之后才变成了GPGPU。”

英伟达将GPU变为群众认知里的通用芯片,也是通过了近20年的尽力,从树立CUDA软件生态到老练,让GPGPU能做图形加快,AI核算,科学核算。

“从技能维度,差异CPU和DSA能够看其是否能运转Windows、Linux这样的操作体系。”宇阳弥补,“从这个视点看GPU仍旧是DSA。”

仅仅在大部分人眼里,英伟达的GPGPU已然成为了一颗通用芯片,在当下最为炽热的AI商场里求过于供。

早已看到英伟达GPGPU强壮的我国创业者,直接挑选了GPGPU架构进行创业,就像天数智芯、登临科技、壁仞科技、海飞科。

“挑选GPGPU的途径尽管不能逾越英伟达,但有国产代替的刚需,而且这条道路能够通过多种技能方案做到‘兼容CUDA’,下降用户的软件切换本钱。”浩然直言,“有了国产代替的需求,让我国大芯片创业公司有时机与英伟达竞赛,而且终究必定会留下几家AI大芯片的公司。

这时谁能吃下大模型的问题就变成了跟从派和立异派的时机谁更大?

03

两派相争,立异派已死?

一个十分尖锐的观念是,DSA已死。这是一个*争议性的论题,讨论这个论题能够添加作者微信BENSONEIT。

这种论调中心的逻辑是英伟达编程性很强的GPGPU现现已过了AI大模型的验证,在Transformer让AI算法趋于收敛的现状下,英伟达能够通过手艺优化底层代码,高效调度底层硬件取得继续的功能提高,让现已流片量产的DSA不再具有规划之初的巨大功能优势。

算法不确定的时分,英伟达没有动力针对某个算法做手艺优化。这让针对某类算法(比方CNN)的DSA能够有2倍乃至更多的功能优势。”浩然对DSA的未来有些失望。

“现在算法和模型收敛,英伟达进行手艺优化能够充沛释放出硬件的功能,每一代CUDA晋级都会带来10-20%的功能提高。而通过底层硬件固化完成性价比优势的DSA要继续通过软件优化提高功能的难度很大,极点的状况软件乃至没有多大的提高空间。”

德辉从他拿手的编译视点解说,Flash Attention系列作业在大模型上的冷艳作用,正是阐明针对特定模型的手艺交融大算子是一种典型手法,实质是通过手艺将特定的模型子结构从存储受限(memory bound)转化成了核算受限(compute bound),*程度发挥出了GPU的核算功能。

“这种办法仅仅做了部分的优化,手艺本钱比较高,也难以大规模推行。”德辉不以为DSA已死,“只要具有一个能够主动生成交融算子的编译器,GPU才干*程度发挥出功能优势。但主动编译CPU做了几十年也没做出来,这是一个业界难题。”

比编译器更底层的芯片架构,也决议着核算AI大模型使命的功率。

宇阳也指出了GPU架构的局限性,GPU为了确保很强的编程性,在架构上学习了CPU的规划,芯片上没有缓冲器(Buffer),每次操作的目标只能是寄存器,典型寄存器巨细是个很短的向量,比方64字节,这是确保编程灵活性的*规划,但数据要不断在芯片内部和外部存储之间转移,功率不高。

“AI大模型动辄便是上百亿个参数,要提高核算功率需求尽量削减数据的搬移。DSA能够为大模型规划很大的片上缓存,一次能够操作64字节的上千倍,比较GPGPU有显着优势。”宇阳指出。

两者的不同十分显着,GPGPU核算 AI模型时核算单元的使用率一般状况下只要30%-40%,而DSA一般都能做到核算单元的使用率到达80%-90%。

许多人没看到DSA的中心价值——数据流优化。”德辉的经历告知他,“通过充沛发挥DSA片上有的大存储器(SRAM)优势,使用编译器进行彻底优化,完成抱负的图编译,每一层都把大模型核算的存储受限转化为核算受限,能够*化DSA的优势。”

而DSA的优势没被充沛发掘出来,仍是由于许多DSA芯片公司都在用英伟达的思路规划软件。

“用英伟达GPGPU的办法规划软件既是一个思想定式,也是一个通过验证成功的路,危险更低。而且,要针对DSA的优势用别的的思路规划编译器,也有技能上的应战,比方打破算子鸿沟带来的杂乱性。”这是德辉的心得。

即使再看好DSA,宇阳和德辉都没有否定未来的趋势是混合DSA。

04

专用和通用交融才是大模型的*解

一个*的AI大模型处理器应该是用T4 GPU的核算中心,用H100 GPU的显存。”洪杰用一个形象的说法道出大模型的实在需求。

而兼具通用性和专用性的混合DSA芯片才是满意大模型需求的抱负产品,未来AI芯片公司的比拼是混合DSA。

6年前,英伟达的Volta架构初次为深度学习加入了Tensor Core,尔后的每代架构都不断优化Tensor Core,增强GPU的AI功能。

2022年发布的H100 GPU,又添加了软硬结合的Transformer Engine,意图是加快AI大模型核算。

Tensor Core和Transformer引擎,都是为AI作业流规划的专用核算单元。也便是说,英伟达早就在“通用”的GPGPU上添加了“专用”的AI加快单元,这种交融规划统筹了GPGPU的通用性,又能发挥专用加快单元的能效比优势,更像是大模型的*解。

这里有一个会让人隐晦的问题,已然AI模型都安稳了,为什么不是规划一个Transformer专用的加快芯片,还需求通用性?

“算法的类别尽管从几千种变成几百种,但还在不断优化,只要具有满意的通用性,才干*化芯片的价值。”宇阳解说。

“从芯片的规划规则看,规划一个Transformer专用加快芯片,去‘赌’未来三至五年内不会有新的模型结构推翻性的替换掉Transformer,也是一个十分张狂的主意。”浩然弥补。

那混合DSA的道路清晰之后,各家芯片的差异会怎么表现?

“混合DSA其实便是在通用的CPU和朴实专用的DSA之间找一个平衡点。不同的架构师挑选的点会彻底不相同,但究竟谁的规划更好,需求时刻的查验。由于架构的规划不是一个朴实的技能问题,还与其时所在的时刻,环境有很大联系。”宇阳这样以为。

其间有赌的部分,浩然说,“混合DSA的片上存储(SRAM)十分贵,由于需求占用的芯片面积十分大,所以究竟规划多大的SRAM,需求赌。”

终究混合DSA芯片之间差异将会很小。

就像现在安卓体系和iOS体系越来越像相同,最终能够留下来的混合DSA架构的AI芯片,或许也是80%相同,只要20%不同。”洪杰做出了这样的判别。

但在走到这一天之前,混合DSA还有一个巨大的难题——比GPGPU和DSA都更杂乱的软件栈。这很简单了解,已然是将两种架构交融,体系就愈加杂乱,难度天然也更大。

当然,更清晰的算法又能下降软件开发和优化的难度。

此刻,就能够回到开始的问题,我国芯片公司谁能喝到大模型的汤?

05

谁能更快吃上大模型?

商业的成功不是单纯的技能道路“好坏”就能够决议,现在能够看到的是,跟从派转向混合DSA的技能难度相对低一些,立异派有RISC-V CPU可选,可谓各有好坏。详细到每一家公司的时分,状况又各不相同。

“GPU的众核(Many Core)规划,比较DSA的规划难度更大,所以现已规划出GPGPU的草创公司,再添加一个DSA,比DSA添加一个GPGPU的难度小一些。”浩然从众核规划的难度判别各家芯片公司面对的应战巨细。

“GPU的一致性操控的确很难。”宇阳部分认同浩然的观念,“但添加可编程性并不必定便是要做一个GPGPU,有许多途径可选。”

德辉就十分看好RISC-V CPU加上DSA的混合DSA,“RISC-V CPU能够供给向量核算,而且有满意的通用性,与DSA混合是一个不错的挑选。”

这种混合DSA办法要自己树立软件生态,需求投入的资源巨大。

“芯片要落地十分要害的是要承受客户的批判和质疑,然后务实地迭代。”洪杰的主意是,“芯片公司要把客户不肯做的活都做了,比方搬迁芯片的很多作业,让客户能够无感搬迁,但这需求极大的人力和时刻的投入。”

比较之下,DSA途径的公司想兼容CUDA生态的难度比GPGPU途径的公司难度更大。

但关于走GPGPU途径创业的公司也不是一件简单的作业,要兼容英伟达的CUDA生态,硬件规划和软件都要尽量挨近英伟达,才干完成挨近英伟达GPU的功能。

AMD便是走兼容英伟达的路,国内公司走这条路的天花板便是AMD。”德辉指出,“在部分场景做到英伟达80%的体会没有问题,但逾越不了英伟达。”

再大致看看各家的状况,跟从派里天数智芯和登临科技具有先发优势,壁仞科技也被多位内工程师视作黑马。

立异派里的寒武纪遭到美国禁令的约束出路难料;燧原科技每一代产品都采用了HBM(高带宽存储器)合适大模型,但和其它公司相同,软件是个不小的应战。

留意一个时刻点,2025年英特尔方案推出交融其GPU和DSA的新一代AI芯片,那时分AI芯片的竞赛将会愈加剧烈。

注:文中浩然、宇阳、洪杰、德辉均为化名