首页 体育 教育 财经 社会 娱乐 军事 国内 科技 互联网 房产 国际 女人 汽车 游戏

单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍

2019-12-18

2016 年末,谷歌 TPU 团队的十位中心开发者中的八位悄然离任,创办了一家名为Groq的机器学习体系公司。在尔后的三年里,这家公司一向很低沉。但最近,他们带着一款名为 TSP 的芯片架构出现在大众视界里。

TSP 的全称是 Tensor Streaming Processor,专为机器学习等 AI 相关需求打造。该架构在单块芯片上能够完结每秒 1000 万亿次运算,是全球首个完结该等级功能的架构,其浮点运算功能可达每秒 250 万亿次。在摩尔定律走向消亡的布景下,这一架构的面世标志着芯片之争从晶体管转向架构。

250 TFLOPS 浮点运算功能是什么概念?现在的国际第一超级核算机 Summit,其峰值算力为 200,794.9 TFLOPS,它的背面是 28,000 块英伟达 Volta GPU。假如 TSP 抵达了相似的功率,仅需 803 块就能够完结相同的功能。

Groq在一份白皮书中介绍了这项全新的架构规划。此外,他们还将在于美国丹佛举行的第 23 届国际超算高峰论坛上展现这一效果。

白皮书地址:https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

「咱们为这一职业和咱们的客户感到振奋,」Groq的联合开创人和 CEO Jonathan Ross 表明。「尖端 GPU 公司都在声称他们有望在未来几年向用户交给一款每秒百万亿次运算功能的产品,但Groq现在就做到了,并且建立了一个新的功能规范。就低推迟和推理速度而言,Groq的架构比其他任何用于推理的架构都要快许多倍。咱们与用户的互动证明了这一点。」

Groq的 TSP 架构是专为核算机视觉、机器学习和其他 AI 相关作业负载的功能要求规划的。「关于一大批需求深度学习推理运算的运用来说,Groq的解决方案对错常抱负的挑选,」Groq的首席架构师 Dennis Abts 表明,「但除此之外,Groq的架构还能用于广泛的作业负载。它的功能和简洁性使其成为一切高功能即数据和核算密集型作业杂乱的抱负渠道。」

Groq的这款架构遭到「软件优先」理念的启示。它在Groq开发的 TSP 中完结,为完结核算灵活性和大规模并行核算供给了一种新的范式,但没有传统 GPU 和 CPU 架构的约束和交流开支。

在Groq的架构中,Groq编译器担任编码一切内容:数据流入芯片,并在正确的时刻和正确的地址刺进,以保证核算实时进行,没有中止。履行规划由软件担任,这样就能够释放出本来要用于动态指令履行的名贵硬件资源。

这使得Groq的芯片功能具有确定性。编译器动态地重新装备硬件来履行每个核算,因而编译器和芯片之间没有笼统。因为编译器了解硬件和每条指令的速度,所以它能够精确地告知硬件做什么,什么时候做。

在传统的体系架构中,将数据从 DRAM 移动到处理器需求很多的算力和时刻,并且相同作业负载上的处理功能也是可变的。在典型的作业流中,开发人员经过重复运转作业负载或程序来对其进行装备和测验,以验证和衡量其均匀处理功能。因为处理器接纳和发送数据的方法不同,这种处理或许会得到略有不同的成果,而开发人员的作业便是手动调整程序以抵达预订的可靠性等级。

但有了Groq的硬件和软件,编译器就能够精确地知道芯片的作业方法以及履行每个核算所需的时刻。编译器在正确的时刻将数据和指令移动到正确的方位,这样就不会有推迟。抵达硬件的指令流是彻底编排好的,使得处理速度更快,并且可猜想。

开发人员能够在Groq芯片上运转相同的模型 100 次,每次得到的成果都彻底相同。关于安全和精确性要求都十分高的运用来说,这种核算上的精确性至关重要。

别的,运用Groq硬件规划的体系不会遭到长尾推迟的影响,AI 体系能够在特定的功率或推迟预算内进行调整。

这种软件优先的规划理念协助Groq规划出了一款简略、高功能的架构,能够加快推理流程。

该架构既支撑传统的机器学习模型,也支撑新的核算学习模型,现在在 x86 和非 x86 体系的客户站点上运转。

为了满意深度学习等核算密集型使命的需求,芯片的规划好像正在变得越来越杂乱。但Groq以为,这种趋势从根本上便是过错的。他们在白皮书中指出,当时处理器架构的杂乱性已经成为阻止开发者出产和 AI 运用布置的首要妨碍。当时处理器的杂乱性下降了开发者作业功率,再加上摩尔定律逐步变慢,完结更高的核算功能变得越来越困难。

Groq的芯片规划下降了传统硬件开发的杂乱度,因而开发者能够愈加专心于算法,而不是为了硬件调整自己的解决方案。有了这种愈加简略的硬件规划,开发者无需进行分析研讨,因而能够节约资源,更简略大规模布置 AI 运用。

与根据 CPU、GPU 和 FPGA 的传统杂乱架构比较,Groq的芯片还简化了认证和布置,使客户能够简略而快速地完结可扩展、单瓦高功能的体系。

Groq的张量流架构能够在任何需求的当地供给算力。与当时抢先的 GPU、CPU 比较,Groq处理器的每个晶体管能够完结 3-6 倍的功能进步。这一改善意味着交给功能的进步、推迟的下降以及本钱的下降。成果是,Groq的架构运用起来愈加简略,并且功能高于传统核算渠道。

Groq总部坐落加州山景城,针对核算密集型运用程序供给高效的软件驱动解决方案,在功能、精确性和推迟度等方面处于职业抢先水准。

创建之初,Groq颇受重视的原因是它的团队组成:开创团队的 8 位研制成员均来自谷歌 TPU 中心团队——在此之前,谷歌 TPU 中心团队一共不过才 10 个人。谷歌在短短 14 个月内发布 TPU,1 年后又完结第 2 代 TPU,所以外界对Groq抱有十分高的等待值。

尽管Groq仅仅一家建立三年的创业公司,但一举一动都会遭到外界的高度重视。本年 9 月,Groq在 AI Hardware Summit 2019 无故缺席,业界纷繁猜想Groq公司内部是否遇到了危机。

Groq现任 CEO Jonathan Ross 的身份是「前谷歌芯片高层人员」,他结业于纽约大学,曾在谷歌度过了 5 年多的职业生涯,是 TPU 的首要规划者之一。与他相关的还有十分奥秘的谷歌 X 实验室,这个部分所从事的作业都是最前沿的范畴,比方太空电梯、无人驾驶轿车、谷歌眼镜等。必定含义上说,谷歌是在「使用这个实验室来追寻 100 个震慑国际的构思」。创建之初,Jonathan Ross 担任Groq的 CTO,后来从 2018 年末开端接任 Doug Wightman 担任 CEO 一职。

Douglas Wightman 也是谷歌 X 实验室的前成员。Groq建立几个月后,赛灵思全球出售履行副总裁 Krishna Rangasayee 也加盟出任 COO。

就在前几天,Groq官网宣告 Stuart Pann 也将参加其董事会。Stuart Pann 现在是惠普的首席供应链官,之前在英特尔作业了 33 年之久,担任英特尔微处理器和芯片组事务的定价,收入和猜想等相关作业,在操控本钱开销、进步营收方面有着十分深沉的经历。

Groq现在大约有 70 名职工,从工程师数量上看还不及英特尔这种大型芯片制造商的四分之一。不过,Groq却在用于人工智能职业的要害范畴——新式芯片研制方面占有适当的优势。这个范畴未来或许价值数百亿美元,而 CEO Jonathan Ross 此前不久表明「Groq不期望被收买」。

本来Groq对外发布要在 2018 年发布第一代芯片,实践发布时刻却是本年的 9 月。尽管来得晚了一些,但仍是满足冷艳。

参阅链接:

https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

https://www.prnewswire.com/news-releases/groq-announces-worlds-first-architecture-capable-of-1-000-000-000-000-000-operations-per-second-on-a-single-chip-300958743.html?tc=eml_cleartime from=timeline isappinstalled=0

https://www.bloomberg.com/news/articles/2019-10-24/former-google-chip-guru-takes-novel-approach-to-ai-at-groq

http://baijiahao.baidu.com/s?id=1649887565730511742 wfr=spider for=pc

热门文章

随机推荐

推荐文章