您的位置:主页 > 公司动态 > 公司新闻 > 公司新闻
谷歌的自研芯片帝国-期货开户
这两天,AI再一次登上了各大媒体的头条。
12月6日,谷歌官宣了了全新的多模态大模子 Gemini,包罗了三个版本,凭证谷歌的基准测试效果,其中的 Gemini Ultra 版本在许多测试中都显示出了“*进的性能”,甚至在大部门测试中完全击败了 OpenAI 的 GPT-4。
而在Gemini出尽了风头的同时,谷歌还丢出了另一个另一个重磅炸弹——全新的自研芯片TPU v5p,它也是迄今为止功效最壮大的 TPU。
凭证官方提供的数据,每个 TPU v5p pod 在三维环形拓扑结构中,通过最高带宽的芯片间互联(ICI),以 4,800 Gbps/chip 的速率将 8,960 个芯片组合在一起,与 TPU v4 相比,TPU v5p 的 FLOPS 和高带宽内存(HBM)划分提高了 2 倍和 3 倍。
除此之外,TPU v5p训练大型 LLM 模子的速率比上一代 TPU v4 快 2.8 倍,行使第二代 SparseCores,TPU v5p 训练嵌入麋集模子的速率比 TPU v4 快 1.9 倍。TPU v5p 在每个 pod 的总可用 FLOPs 方面的可扩展性也比 TPU v4 凌驾 4 倍,且每秒浮点运算次数(FLOPS)增添了一倍,单个 pod 中的芯片数目也增添了一倍,大大提高了训练速率的相对性能。
谷歌还找来了一堆科学家为TPU v5p的AI性能背书:
Salesforce 高级研究科学家Erik Nijkamp示意:“我们一直在行使谷歌云TPU v5p对Salesforce的基础模子举行预训练,这些模子将作为专业生产用例的焦点引擎,我们看到训练速率有了显著提高。事实上,Cloud TPU v5p 的盘算能力是上一代 TPU v4 的 2 倍之多。我们还异常喜欢使用 JAX 从 Cloud TPU v4 到 v5p 的无缝轻松过渡。我们很喜悦能通过正确量化训练(AQT)库对 INT8 正确名堂的原生支持来优化我们的模子,从而进一步提高速率。”
Lightricks 焦点天生式人工智能研究团队卖力人 Yoav HaCohen 博士示意:“行使谷歌云 TPU v5p 的*性能和足够内存,我们乐成地训练了文本到视频的天生模子,而无需将其拆分成单独的历程。这种*的硬件行使率大大加速了每个训练周期,使我们能够迅速开展一系列实验。在每次实验中快速训练模子的能力促进了快速迭代,这是我们的研究团队在竞争猛烈的天生式人工智能领域的名贵优势。”
谷歌 DeepMind 和谷歌研究院首席科学家 Jeff Dean也力挺自家芯片:“在早期使用中,谷歌DeepMind和谷歌研究院考察到使用TPU v5p芯片的LLM训练事情负载的速率比TPU v4代提高了2倍。对 ML 框架(JAX、PyTorch、TensorFlow)和协调工具的壮大支持使我们能够在 v5p 上更高效地扩展。有了第二代 SparseCores,我们还发现嵌入式事情负载的性能有了显著提高。TPU 对于我们在 Gemini 等前沿模子上开展*规模的研究和工程事情至关主要。”
对于谷歌来说,Gemini是应对Open AI的一柄利器,而TPU v5p则是一块敲门砖,用它来垒起一道抵御英伟达GPU的高墙,软件硬件双管齐下,似乎它在AI时代里已处在不败之地。
问题来了,谷歌凭什么能拥有现在的优势?
岌岌无名到名满天下
谷歌TPU并非一蹴而就,它的自研旅途始于十年之前。
作为一家科技公司的谷歌,着实早在 2006 年就思量为神经网络构建专用集成电路 (ASIC),但到了 2013 年,情形变得紧迫了起来,谷歌的科学家们最先意识到,神经网络快速增进的盘算需求与数据中央数目存在着不能协调的矛盾。
那时的 Google AI卖力人Jeff Dean经由盘算后发现,若是有1亿安卓用户天天使用手机语音转文字服务3分钟,其中消耗的算力就是Google所有数据中央总算力的两倍,而全球安卓用户远不止1亿。
数据中央的规模不能能无限制地扩张下去,谷歌也不能能限制用户使用服务的时间,但CPU和GPU都难以知足谷歌的需求:CPU一次只能处置相对来说很少量的义务,GPU在执行单个义务时效率较低,而且所能处置的义务局限更小,自研成了最后的出路。
谷歌立下了一个小目的:针对机械学习这一目的来构建特定领域盘算架构(Domain-specific Architecture),还要将深度神经网络推理的总体拥有成本(TCO)降低至原来的十分之一。
通常,ASIC 的开发需要数年时间,但谷歌却仅用了 15 个月就完成了TPU处置器的设计、验证、制造并部署到数据中央。TPU 项目的手艺卖力人 Norm Jouppi(也是 MIPS 处置器的主要架构师之一)这样形貌冲刺阶段:
“我们的芯片设计速率异常快。这确实异常了不起。我们在没有修正错误或更改掩膜的情形下,就最先出货*个芯片。思量到我们在构建芯片的同时还在招聘团队,然后招聘 RTL(电路设计)职员,并急于招聘设计验证职员,这一切都异常忙碌。”
代表着谷歌手艺结晶的初代TPU 接纳了 28 纳米工艺制造,运行频率为 700MHz,运行时功耗为 40W,谷歌将处置器包装成外置加速卡,安装在 SATA 硬盘插槽中,实现即插即用。TPU 通过 PCIe Gen3 x16 总线与主机毗邻,可提供 12.5GB/s 的有用带宽。
与 CPU 和 GPU 相比,单线程 TPU 不具备任何庞大的微架构功效,极简主义是特定领域处置器的优点,谷歌的TPU一次只能运行一项义务:神经网络展望,但每瓦性能却到达了GPU的30倍,CPU的80倍。
谷歌在这件事上显示得异常低调,直到2016年的Google I/O开发者大会上,首席执行官Sundar Pichai才正式向天下展示了TPU这一自研功效。
Pichai对参会的嘉宾示意,DeepMind研发的AlphaGo能够击败韩国棋手李世石,底层硬件里的TPU功不能没,TPU就像希腊神话中引发特洛伊战争的女人——海伦,它的泛起引起了“成千芯片与之竞逐”。
但谷歌并未止步于此,险些是在*代TPU完成后,就马上投入到了下一代的开发当中:2017年,TPU v2问世;2018年,TPU v3推出;2021年,TPU v4在Google I/O开发者大会上亮相……
而谷歌对于AI芯片也愈发轻车熟路:*代 TPU 仅支持 8 位整数运算,这意味着它能举行推理,但训练却遥不能及;而TPU v2,不仅引入了HBM内存,还支持了浮点运算,从而支持了机械模子的训练和推理;TPU v3则在前一代基础上,重点增强了性能,且部署在 Pod 中的芯片数目翻四倍。
到了TPU v4,Pichai更是自满地示意:“AI手艺的提高有赖于盘算基础设施的支持,而TPU正是Google盘算基础设施的主要部门。新一代TPU v4芯片的速率是v3的两倍多。Google用TPU集群构建出Pod超级盘算机,单台TPU v4 Pod包罗4096块v4芯片,每台Pod的芯片间互连带宽是其他互连手艺的10倍,因此,TPU v4 Pod的算力可达1 ExaFLOP,即每秒执行10的18次方浮点运算,相当于1000万台条记本电脑的总算力。”
到了2023年的今天,TPU已经成为了AI芯片的代名词之一,成为了继CPU和GPU后又一主要的处置器,它部署在谷歌数十座数据中央当中,天天完成着数以亿计的AI盘算义务。
谛声科技获超亿元B 轮融资,中国移动旗下基金领投
谷歌的自研帝国
TPU只是谷歌自研的序幕。
2017年的Google Cloud Next '17 大会上,谷歌推出了名为Titan的定制平安芯片,它专为硬件级其余云平安而设计,通过为特定硬件确立加密身份,实现更平安的识别和身份验证,从而提防日益疯狂的BIOS攻击。
Titan芯片面向的并不全是谷歌自己,它的泛起是为了说服企业,数据存在谷歌云中比企业的内陆数据中央更平安,谷歌示意,自研的Titan芯片通过确立壮大的基于硬件的系统身份,来验证系统固件和软件组件,珍爱启动的历程,这一切得益于谷歌自己确立的硬件逻辑,从基本上削减了硬件后门的可能性,基于Titan的生态系统也确保了设施仅使用授权且可验证的代码,最终让谷歌云拥有了比内陆数据中央更平安的可靠性。
Titan的泛起,只不外是小试牛刀,2021年3月,谷歌在ASPLOS 聚会上首次先容了一块应用于YouTube服务器的自研芯片,即Argos VCU,它的义务很简朴,就是对用户上传的视频举行转码。
凭证数据统计,用户每分钟会向YouTube上传跨越500小时的种种名堂的视频内容,而谷歌则需要将这些内容快速转换成多种分辨率(包罗144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和种种名堂(例如,H.264、VP9或AV1),没有一块具备壮大的编码能力的芯片,想要快速转码就是一件不能能的事情。
谷歌实验过两种解决方案,*种是英特尔的视觉盘算加速器(VCA),包罗三个 Xeon E3 CPU,内置 Iris Pro P6300/P580GT4e 集成图形内核和先进的硬件编码器,第二种则是行使英特尔至强处置器外加软件编码来完成义务。
但岂论是前者照样后者,都需要重大的服务器规模和巨额的电力消耗,于是,谷歌开启了又一块自研芯片——VCU的研发。卖力监视 YouTube 重大基础设施的 Google 工程副总裁斯科特·西尔弗 (Scott Silver) 示意,从2015年最先,约莫有 100 名 Google 工程师组成的团队投身设计*代Argos 芯片,在今后几年当中,这支团队不仅完成了研发,还让芯片应用在谷歌的数据中央当中,而Argos的实力也得以展现——它处置视频的效率比传统服务器高 20 到 33 倍,处置高分辨率 4K 视频的时间由几天缩短为数小时。
下一代Argos或许早已悄悄在谷歌服务器中上线了,凭证报道,谷歌自研的第二代VCU将支持 AV1、H.264 和 VP9 编解码器,可以进一步提高其编码手艺的效率,也将会是YouTube内容创作生态的最有力支持。
而谷歌最强的大招还得是最庞大的手机SoC。2021年10月19日,一场秋季公布会上,搭载谷歌*自研芯片 Tensor 的旗舰手机 Pixel 6 系列首次亮相。
谷歌高级副总裁 Rick Osterloh 在公布会上示意,这款芯片是“公司历史上*的移动硬件创新”,而谷歌CEO Sundar Pichai更是早早地在推特上晒出了Tensor芯片的照片,对于自研项目的自豪感溢于言表。
不外这块自研芯片,实质上是基于三星在2020年开放的半定制芯片设计的服务,在TechInsights的拆解图中,Tensor的封装尺寸为 10.38mm x 10.43mm = 108.26mm 2,内部芯片标识为“S5P9845”,相符传统三星Exynos处置器命名规则,如Exynos 990的芯片标识为S5E9830,Exynos 2100 5G SoC芯片标识为S5E9840,本质上是谷歌界说,三星设计代工的一块芯片。
即便云云,谷歌的自研芯片的结构也已初具雏形,从TPU到Titan,从VCU到Tensor,谷歌走过了十年的旅程,而它试图通盘掌握这个硅片组成帝国的野心也昭然若揭。
谷歌的伶俐帐与绊脚石
对于谷歌来说,要钱有钱,要手艺有手艺,要应用场景有应用场景,可以说是各大科技巨头中在自研AI芯片这条路上走得最远的,其他厂商现在还在源源不停地给英伟达账户打钱,但谷歌却早已做好了两手准备,不少人甚至将它视为现在英伟达垄断事态的最强挑战者。
与微软和亚马逊相比,谷歌最突出的优势,就是从系统级的角度设计TPU,单个芯片虽然主要,但在现实天下中若何在系统中组合使用则更为主要。虽然英伟达也从系统角度思索问题,但他们的系统规模比谷歌更小,局限也更窄。而且谷歌还在 TPU 之间使用了定制的网络客栈 ICI。与昂贵的以太网和 InfiniBand 部署相比,这种链路延迟低、性能高,类似于英伟达的 NVLink。
事实上,谷歌的 TPUv2 可以扩展到 256 个 TPU 芯片,与英伟达的 H100 GPU 数目相同。在 TPU v3 和 TPU v4 中,这一数字划分增添到了 1024 和 4096个。凭证趋势线,而最新的 TPU v5p 则可以扩展到 8960 个芯片,而无需通过低效的以太网。
此外,谷歌在OCS、拓扑结构、DLRM 优化上也具有独到的优势,十年来积攒的履历优势辅助谷歌的TPU在数据中央里和AI大模子中大展身手,在详细应用中,用遥遥*来形容也不太过,未来谷歌完全脱节英伟达GPU的掣肘,也并非不能能。
不外,谷歌尚有一个不大不小的绊脚石。
TPU的自研始于2013年,能在15个月里快速部署到数据中央,同时实现快速迭代性能猛增,除了夜以继日的谷歌研究职员外,另外一家公司提供的辅助也极其主要。
凭证2020年摩根大通剖析师哈兰·苏尔的讲述,谷歌TPU v1至v4这几代均是由博通配合设计的,那时它已经最先生产接纳7nm 工艺的TPU v4,并最先与谷歌相助设计接纳5nm工艺的TPU v5
苏尔示意,博通的专用集成电路(ASIC)营业2020整年收入为 7.5 亿美元,高于 2016 年的 5000 万美元,除了芯片设计之外,博通还为谷歌提供了要害的知识产权,并卖力了制造、测试和封装新芯片等步骤,以供应谷歌的新数据中央,博通还与其他客户如Facebook、微软和AT&T等公司相助设计ASIC芯片。
而凭证2022年博通的财报,其将 ASIC 收入分为两部门:路由和交流以及盘算卸载。盘算卸载在数据中央内分两步处置。当提出盘算请求时,路由器和交流时机决议由数据中央的哪个部门来处置这项事情。一旦决议,处置器(通常是 CPU 或 GPU,如 Nvidia 设计的处置器)就会举行盘算,然后由这些路由器和交流机再次通过互联网或专用网络发送回最终用户。
就收入而言,博通是全球第二大人工智能芯片公司,仅次于英伟达,其ASIC的销售额达数十亿美元,而这正是谷歌为响应微软与 OpenAI 相助而加大 TPU 部署的效果,光是一家谷歌的TPU就让博通的ASIC收入翻了两番还多,谷歌没交给英伟达的人工智能税,以另一种形式进了博通的口袋。
无论是哪家公司,都不会意甘情愿继续交这笔钱的,因而在今年9月就传出了谷歌准备在2027年前竣事与博通的相助关系,新闻人士称,谷歌高管已经设定了放弃博通的目的,转而最先思量起了它的竞争对手Marvell,此前两家公司就TPU 芯片的订价问题陷入了长达数月的僵局。
虽然后面谷歌官方又出来辟谣,示意现在没有设计改变与博通的相助关系,但私底下两家不合已经是人尽皆知的事情了。
谷歌在TPU上算了一笔伶俐帐,在微软等巨头乖乖交钱的时刻,它掏出了TPU v5p来匹敌英伟达,但它没想到的是,几年前还不起眼的ASIC相助,现在却成了TPU生长路上*的一颗绊脚石,只要扩大TPU的部署规模,就得不停加钱给博通。
云云想来,巨头们真的是躲得过月朔,躲不外十五,躲过了英伟达GPU高达70%的利润,却躲不外像博通这样的相助公司,微软这些巨头,想要在AI芯片上省钱,往后难免会遇到像谷歌今日一样平常的困局吧。
上一篇:芒格之后-香港期货开户
下一篇:谁在为雪季买单?-商品期货