“站在風(fēng)口上,豬都能飛起來!”這是互聯(lián)網(wǎng)時(shí)代被大眾一度捧上神壇的信條,但是在 AI 時(shí)代,創(chuàng)業(yè)者站上 AI 跑道就能贏嗎?如果只憑站對(duì)賽道就能起飛,大眾太高估 AI 這陣風(fēng)了。不管國(guó)內(nèi)的 AI 四小龍,還是傳統(tǒng) BAT,沒有技術(shù)實(shí)力一定走不遠(yuǎn),但是如果有過硬的技術(shù)實(shí)力,就是身處犄角旮旯也會(huì)被投資人發(fā)現(xiàn)。
去年 11 月,一則“Habana Labs 獲得 7500 萬(wàn)美元 B 輪融資”的新聞將 Habana Labs 這家公司帶進(jìn)公眾的視野。一出道就光芒四射,這是何方神圣?曾經(jīng)有多少人驚嘆于以色列強(qiáng)大的創(chuàng)新力,這家公司就于 2016 年誕生于以色列,其首席商務(wù)官 Eitan Medina 坦言,我們的目標(biāo)是改變?cè)贫恕?a class="article-link" target="_blank" href="/tag/%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%BF%83/">數(shù)據(jù)中心以及其它新興應(yīng)用的人工智能處理方式。Habana Labs 也在踐行這一目標(biāo),目前針對(duì) AI 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理部署都推出了對(duì)應(yīng)的產(chǎn)品。
Habana Labs 首席商務(wù)官 Eitan Medina
?
Goya 處理器一經(jīng)亮相,引起業(yè)界轟動(dòng)
人工智能分為訓(xùn)練階段和推理階段,GPU 已成為處理 AI 流程所需的快速計(jì)算的首選芯片之一,英偉達(dá)的芯片一直在 AI 領(lǐng)域占據(jù)著主導(dǎo)地位。但是新興公司也在試圖優(yōu)化 AI 處理流程,從而設(shè)計(jì)出速度更快、更節(jié)能的產(chǎn)品。Habana Labs 于去年推出其推理處理器 Goya,而且從概念到經(jīng)過嚴(yán)格測(cè)試并準(zhǔn)備好投產(chǎn)僅僅用了不到一年的時(shí)間。
基于 Goya HL-1000 處理器的 PCIe 卡可基于 ResNet-50 推理基準(zhǔn)實(shí)現(xiàn)每秒 15000 張圖片的吞吐量,延遲時(shí)間為 1.3 毫秒,功耗僅為 100 瓦,主要應(yīng)用于數(shù)據(jù)中心。
Goya 處理器的性能到底處于什么水平?只憑參數(shù)很難下結(jié)論。Habana Labs 和英偉達(dá)的 GPU 做對(duì)比,其首席商務(wù)官 Eitan Medina 介紹,“從上圖中可以看出,Goya 的性能是 Tesla T4 的三倍;從能耗上來看,比 GPU 有兩倍的優(yōu)勢(shì);在實(shí)時(shí)處理上,延遲也比 GPU 要低很多?!?/p>
與傳統(tǒng)的 CPU 對(duì)比,8 片 V100 GPU 的性能等同于 169 片傳統(tǒng) CPU 的處理能力,而 3 片 Goya 處理器就可以達(dá)到 8 片 V100 的處理效果。
為 AI 而生的架構(gòu)是 Goya 實(shí)現(xiàn)高性能的“秘訣”
都說術(shù)業(yè)有專攻,如果 CPU 和 GPU 是針對(duì)通用計(jì)算而生,那么 Goya 就是針對(duì)人工智能而生。Habana Labs 在架構(gòu)上下了功夫,設(shè)計(jì)了一款叫做 Tensor processor core(張量處理核心)的架構(gòu),其中設(shè)有一個(gè)矩陣乘加家族單元,這種架構(gòu)讓 Goya 支持不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以處理不同類型的數(shù)據(jù)。
在 ResNet-50 上,Batch Size 的大小會(huì)直接影響處理器的性能。尤其是在數(shù)據(jù)中心計(jì)算,批處理的尺寸會(huì)對(duì)整體性能產(chǎn)生很大的影響,在 GPU 中為了實(shí)現(xiàn)最高性能,不浪費(fèi) GPU 的計(jì)算能力,批處理的數(shù)量一般很大。在傳統(tǒng)處理中,為了實(shí)現(xiàn)大的 Batch Size,用戶必須把盡可能多的內(nèi)容加載進(jìn)去,無(wú)形當(dāng)中就會(huì)造成計(jì)算延遲變大。而 Goya 處理器可以實(shí)現(xiàn) Batch Size 等于 1,這意味著一次可以處理單一圖片,因此可以實(shí)現(xiàn)一秒鐘處理 7000 多張圖片的性能。
HabanaLabs 的技術(shù)實(shí)力很快打動(dòng)了資本市場(chǎng),于 2018 年 11 月獲得 7500 萬(wàn)美元超額認(rèn)購(gòu)的 B 輪融資,由英特爾領(lǐng)投,WRV Capital,Bessemer Venture Partners,Battery Ventures 等創(chuàng)投公司的參與。
Gaudi 處理器讓人工智能訓(xùn)練領(lǐng)域有了新突破
做 AI 的公司都有感觸,訓(xùn)練比推理要難,這也是很多公司先做推理后做訓(xùn)練的原因,而且還有很多公司對(duì)推理技術(shù)久攻不下。2018 年 9 月,Janus Henderson Investors 分析師兼科技板塊聯(lián)席主管 Jon Bathgate 表示,在未來 18 至 24 個(gè)月里,很難想象有人會(huì)在培訓(xùn)方面挑戰(zhàn)英偉達(dá)。
出現(xiàn)挑戰(zhàn)就有人敢于接受挑戰(zhàn),挑戰(zhàn)成功創(chuàng)新就出現(xiàn)了,18 個(gè)月的預(yù)期還未到,Habana Labs 就帶來了用于人工智能訓(xùn)練的處理器 Gaudi,而且對(duì)標(biāo)的產(chǎn)品正是英偉達(dá)。Eitan Medina 表示,“基于 Gaudi 的訓(xùn)練系統(tǒng)實(shí)現(xiàn)了比擁有相同數(shù)量的 GPU 系統(tǒng)高四倍的處理能力?!?/p>
除了領(lǐng)先的性能,Gaudi 處理器還為人工智能訓(xùn)練帶來了另一項(xiàng)“行業(yè)第一”,這就是 Gaudi 上集成了 RDMA over Converged Ethernet (RoCE v2) 功能,從而讓人工智能系統(tǒng)能夠使用標(biāo)準(zhǔn)以太網(wǎng)擴(kuò)展至任何規(guī)模。Habana Labs 在 Gaudi 芯片中集成了 10 個(gè) 100G 的以太網(wǎng)端口,每個(gè)以太網(wǎng)端口都支持 RDMA over Ethernet。
差異化就體現(xiàn)在這里,目前市場(chǎng)上其它的訓(xùn)練和擴(kuò)展環(huán)境,都使用專有的網(wǎng)絡(luò)協(xié)議,而 Gaudi 采用的是通用以太網(wǎng)協(xié)議。英偉達(dá)就受限于所采用的私有協(xié)議 NVLink,無(wú)法做大規(guī)模的擴(kuò)展,如果要做擴(kuò)展,要通過傳統(tǒng)的 RDMA 的功能實(shí)現(xiàn)不同規(guī)模的擴(kuò)展,而 Gaudi 處理器已經(jīng)將 RDMA 集成到芯片內(nèi)部。英偉達(dá)也認(rèn)同 RDMA 技術(shù)的重要性,因此收購(gòu)了一家做 RDMA 的公司叫做 Mellanox。
在擴(kuò)展性方面,如上圖,系統(tǒng)中有 8 個(gè)處理器,每個(gè)芯片上有 10 個(gè) 100G 以太網(wǎng)口,其中 7 個(gè)網(wǎng)口和其它 7 顆芯片直接連接互相通訊,剩余 3 個(gè)網(wǎng)口對(duì)外連接,因此系統(tǒng)內(nèi)部的 8 個(gè)芯片之間的數(shù)據(jù)可以無(wú)阻塞傳輸。對(duì)外,可以在機(jī)架內(nèi)一層一層疊加,通過一個(gè)簡(jiǎn)單的以太網(wǎng)交換機(jī),就可以把所有的設(shè)備連接起來;在機(jī)架與機(jī)架之間,通過彼此之間的以太網(wǎng)交換機(jī)的互聯(lián)能夠形成更大規(guī)模。因此,Gaudi 處理器不僅可以實(shí)現(xiàn)垂直性擴(kuò)展,還可以實(shí)現(xiàn)橫向性的大規(guī)模擴(kuò)展,保證數(shù)據(jù)在這些系統(tǒng)當(dāng)中的傳輸是以最小的數(shù)據(jù)比來進(jìn)行傳輸。
對(duì)比英偉達(dá)的 DGX1,里面也有 8 個(gè) V100 芯片。但是 DGX1 采用了專有協(xié)議 NVLink 實(shí)現(xiàn)芯片間互聯(lián),因此它只能實(shí)現(xiàn)兩個(gè)芯片之間的互聯(lián),當(dāng)它從一個(gè)片跳到另外一個(gè)片,中間要進(jìn)行跳躍,比如兩個(gè)片中間還有兩個(gè)片,必須要跳三跳才能到最后一個(gè)。另外,如果 DGX1 要實(shí)現(xiàn)擴(kuò)展,只能依賴于它在網(wǎng)上插的四個(gè) 100G 的以太網(wǎng)端口實(shí)現(xiàn)系統(tǒng)擴(kuò)展。在 Gaudi 系統(tǒng)中,對(duì)外支持 24 個(gè) 100G 端口,因此其在擴(kuò)展性能和帶寬上比 DGX1 高很多。
未來,等待 Habana Labs 的無(wú)非就是兩種命運(yùn),一是被收購(gòu),就如中國(guó)的 AI 創(chuàng)業(yè)新星深鑒科技,歸于賽靈思旗下,從此衣食無(wú)憂;二是奮不顧身沖進(jìn)市場(chǎng)廝殺,憑借技術(shù)優(yōu)勢(shì)占有一席之地。更巧的是,Habana Labs 的首席商務(wù)官 Eitan Medina 在加入公司之前有三段工作經(jīng)歷,都和收購(gòu)有關(guān),他曾在 InvenSense 擔(dān)任市場(chǎng)營(yíng)銷副總裁,后被 TDK 收購(gòu);在 Audience Inc 擔(dān)任工程副總裁,后被 Knowles 收購(gòu);在 Galileo 擔(dān)任首席技術(shù)官,后被美滿電子收購(gòu)。或許,Habana Labs 會(huì)成就 Eitan Medina 的第四段被收購(gòu)經(jīng)歷。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)允許,不得轉(zhuǎn)載!