圖:2017年2月,在倫敦科學(xué)博物館舉辦的科學(xué)博物館機(jī)器人展覽會(huì)的預(yù)覽上展示的世界首款安卓機(jī)器人新聞播報(bào)員Komoroid.
GPU(或稱圖形處理單元)的應(yīng)用程序已然遠(yuǎn)遠(yuǎn)超過(guò)了其本身。超級(jí)計(jì)算機(jī)設(shè)計(jì)人員們發(fā)現(xiàn)它們非常適合于從他們所建立的系統(tǒng)中的CPU卸載大量的工作負(fù)載;其也被證明是一種被稱為深度學(xué)習(xí)(Deep Learning)的機(jī)器學(xué)習(xí)方法的超高效處理器。這正是Google公司用來(lái)提供有針對(duì)性的廣告的AI類型,而亞馬遜的Alexa則可以用于即時(shí)回答語(yǔ)音查詢。
創(chuàng)建相應(yīng)的算法,使得計(jì)算機(jī)能夠通過(guò)觀察和迭代來(lái)進(jìn)行學(xué)習(xí)無(wú)疑是相當(dāng)復(fù)雜的;同樣令人難以置信的是:設(shè)計(jì)計(jì)算機(jī)系統(tǒng)來(lái)執(zhí)行這些指令,并借助數(shù)據(jù)中心的基礎(chǔ)設(shè)施來(lái)為這些系統(tǒng)供電和冷卻。 Ober在Nvidia公司的超大規(guī)模客戶數(shù)據(jù)中心系統(tǒng)中深入了解了這一深度學(xué)習(xí)。
他在接受Data Center Knowledge網(wǎng)站的記者采訪時(shí)表示說(shuō):“我們一直在大型數(shù)據(jù)中心處理大量超大規(guī)模(真正的超大規(guī)模)。 而建立一款用于深入學(xué)習(xí)培訓(xùn)的GPU系統(tǒng)是一個(gè)非常浩大困難的工程問(wèn)題。這真的非常非常難。即使像Facebook和微軟這樣的互聯(lián)網(wǎng)巨頭企業(yè)們也在努力?!?/p>
上圖:Facebook最新的AI服務(wù)器Big Basin.八個(gè)散熱器中的每一個(gè)都隱藏著GPU. (照片來(lái)源:Facebook)
訓(xùn)練一款A(yù)I需要花費(fèi)大量功率能耗
培訓(xùn)是深度學(xué)習(xí)中所涉及到的一種計(jì)算工作負(fù)載(或者說(shuō)是一類工作負(fù)載,因?yàn)樵擃I(lǐng)域正在發(fā)展,并且有幾種不同的培訓(xùn)方法)。其目的是教授一款深層神經(jīng)網(wǎng)絡(luò)——一個(gè)計(jì)算節(jié)點(diǎn)網(wǎng)絡(luò),旨在模擬人腦中的神經(jīng)元相互作用的方式——從現(xiàn)有數(shù)據(jù)中提取新功能。例如,一款神經(jīng)網(wǎng)絡(luò)可以通過(guò)重復(fù)地“查看”多張其中含有狗的各種圖像來(lái)學(xué)習(xí)識(shí)別照片中的狗,圖像中的狗將被標(biāo)記為狗。
其他類型的工作負(fù)載是推理,這是一款神經(jīng)網(wǎng)絡(luò)將其知識(shí)應(yīng)用于新數(shù)據(jù)的領(lǐng)域(例如,識(shí)別之前未見(jiàn)過(guò)的圖像中的狗)。
Nvidia公司為上述兩個(gè)類別的工作負(fù)載制作GPU.但是,在數(shù)據(jù)中心實(shí)施培訓(xùn)可以說(shuō)是特別困難的部分,因?yàn)橛糜谂嘤?xùn)的硬件需要非常密集的GPU群集,或者每臺(tái)服務(wù)器具備多達(dá)可支持8個(gè)GPU的互連服務(wù)器。而這樣的一款機(jī)柜可以很容易地消耗掉30kW以上的功率密度,超級(jí)計(jì)算機(jī)領(lǐng)域之外的大多數(shù)數(shù)據(jù)中心都不是為這一大功率密度提供支持而設(shè)計(jì)的。即使這樣,在這個(gè)范圍的低端,大約20款這樣的機(jī)柜需要消耗與AT&T體育球場(chǎng)達(dá)拉斯牛仔隊(duì)的超大屏幕一樣多的功率,后者是世界上最大的1080p視頻顯示器,其中包含3000萬(wàn)個(gè)燈泡。
“我們的確是給很多數(shù)據(jù)中心的基礎(chǔ)設(shè)施帶來(lái)了真正的壓力,”O(jiān)ber在談到Nvidia公司的GPU時(shí)表示說(shuō)。 “通過(guò)深度學(xué)習(xí)培訓(xùn),企業(yè)通常希望盡可能的能夠使得計(jì)算池盡可能密集,這樣就會(huì)消耗掉相當(dāng)驚人的功率密度,這無(wú)疑是一大真正的挑戰(zhàn)?!绷硪粋€(gè)問(wèn)題是如何控制這些集群中的電壓。 GPU計(jì)算本質(zhì)上是在瞬變中產(chǎn)生大量的電力(電壓突然上升),而且這些都是難以應(yīng)付處理的?!?/p>
互連節(jié)點(diǎn)是另一大挑戰(zhàn)難題。 Ober說(shuō):“根據(jù)您的培訓(xùn)數(shù)據(jù)來(lái)源的不同,數(shù)據(jù)中心網(wǎng)絡(luò)的負(fù)擔(dān)可能是令人難以置信的。” “你企業(yè)可以創(chuàng)造一個(gè)真正火的熱點(diǎn)。”在他看來(lái),電力密度和網(wǎng)絡(luò)可能是數(shù)據(jù)中心系統(tǒng)深度學(xué)習(xí)的兩大設(shè)計(jì)挑戰(zhàn)。
上圖: Tesla P100 是Nvidia公司功能最為強(qiáng)大的GPU(照片來(lái)源:Nvidia公司)
人工智能的冷卻
Ober說(shuō),像Facebook和微軟這樣的超大規(guī)模的數(shù)據(jù)中心運(yùn)營(yíng)商們主要是通過(guò)將他們的深度學(xué)習(xí)集群傳播到許多機(jī)架上來(lái)解決功率密度的挑戰(zhàn),盡管會(huì)在液體冷卻或液體輔助冷卻方面面臨一定的“困惑”。液體冷卻是將冷凍水直接輸送到主板上的芯片(冷卻超級(jí)計(jì)算機(jī)的通用方法),而液體輔助冷卻則是將冷凍水帶到連接到IT機(jī)柜的熱交換器上,通過(guò)冷卻空氣來(lái)為服務(wù)器提供冷卻。
并不是每家需要支持高密度深度學(xué)習(xí)硬件的企業(yè)都擁有令人羨慕的數(shù)十萬(wàn)平方英尺的數(shù)據(jù)中心空間,對(duì)于那些沒(méi)有如此規(guī)模的數(shù)據(jù)中心供應(yīng)商,例如選擇專注于高密度的數(shù)據(jù)中心來(lái)說(shuō),已經(jīng)選擇了采用液體輔助冷卻的路線。最近,市場(chǎng)對(duì)于這些供應(yīng)商的服務(wù)需求已經(jīng)出現(xiàn)了飆升,而這在很大程度上是受益于市場(chǎng)對(duì)于機(jī)器學(xué)習(xí)日益增長(zhǎng)的興趣。
包括初創(chuàng)公司和大型公司正在積極的尋求各種方式來(lái)利用廣泛預(yù)測(cè)的技術(shù)來(lái)推動(dòng)下一輪的技術(shù)創(chuàng)新浪潮,但其中的大多數(shù)公司并沒(méi)有必要的基礎(chǔ)設(shè)施支持這項(xiàng)開(kāi)發(fā)工作。高密度數(shù)據(jù)中心供應(yīng)商ScaleMatrix公司的聯(lián)合創(chuàng)始人克里斯。奧蘭多(Chris Orlando)在接受采訪時(shí)表示說(shuō):“現(xiàn)在, GPU支持的工作負(fù)載是我們所看到增長(zhǎng)最大的工作負(fù)載,而這些工作負(fù)載絕對(duì)是來(lái)自企業(yè)部門(mén)。企業(yè)級(jí)別的數(shù)據(jù)中心并沒(méi)有這樣的裝備?!?/p>
曲棍球棒狀的增長(zhǎng)
這方面需求增長(zhǎng)的飆升是最近才剛剛開(kāi)始的。奧蘭多說(shuō),他的公司在去年年中的某個(gè)時(shí)候發(fā)現(xiàn)了一個(gè)曲棍球棒狀的增長(zhǎng)軌跡。而推動(dòng)這一需求增長(zhǎng)的其他應(yīng)用程序則一直是生命科學(xué)和基因組學(xué)的計(jì)算(ScaleMatrix在圣地亞哥以外的旗艦數(shù)據(jù)中心的最大客戶之一,這種類型的研究的樞紐是基因組學(xué)研究的J.克雷格文特研究所),地理研究和大數(shù)據(jù)分析。在其位于休斯頓的第二處數(shù)據(jù)中心,大部分需求則來(lái)自石油和天然氣行業(yè),其勘探工作需要一些高辛烷值的計(jì)算能力。
ScaleMatrix公司在圣地亞哥的另一家主要的客戶是Cirrascale公司,這是一家專門(mén)從事深度學(xué)習(xí)基礎(chǔ)設(shè)施的硬件制造商和云服務(wù)提供商。
上圖:ScaleMatrix圣地亞哥數(shù)據(jù)中心內(nèi)部一覽(照片來(lái)源:ScaleMatrix公司)
ScaleMatrix圣地亞哥數(shù)據(jù)中心的每臺(tái)機(jī)柜均可以通過(guò)利用中央設(shè)備的冷卻水來(lái)冷卻完全封閉的機(jī)柜周圍的空氣,以支持高達(dá)52kW的機(jī)柜的冷卻需求。定制化設(shè)計(jì)的系統(tǒng)的冷卻水循環(huán)位于機(jī)柜的頂部,其中來(lái)自服務(wù)器的熱排出的空氣升高并被冷卻,進(jìn)而推回到主板上。而伴隨著企業(yè)對(duì)高密度計(jì)算的需求的不斷增長(zhǎng),該公司最近已經(jīng)開(kāi)始在向那些有興趣在內(nèi)部部署這項(xiàng)技術(shù)的企業(yè)銷售該技術(shù)了。
一家位于硅谷的數(shù)據(jù)中心供應(yīng)商Colovore公司也在專注于高密度的托管服務(wù)。該公司正在使用更典型的后門(mén)熱交換器,在當(dāng)前第一階段為每臺(tái)機(jī)架提供高達(dá)20kW的功率密度,在即將到來(lái)的第二階段將提供35kW的功率密度。至少已經(jīng)有一家客戶對(duì)其超過(guò)35kW功率密度的機(jī)架表示了興趣,因此該公司正在探索將冷凍水直接送入類似超級(jí)計(jì)算機(jī)系統(tǒng)的主板的可能性。
今天,Colovore的數(shù)據(jù)中心容量處理能力的“很大一部分比例”是用于支持GPU集群進(jìn)行的機(jī)器學(xué)習(xí),該公司的聯(lián)合創(chuàng)始人兼總裁肖恩?;舸目藘?nèi)西(Sean Holzknecht)在接受采訪時(shí)表示。與ScaleMatrix公司一樣,Colovore目前正處在其發(fā)展道路的一個(gè)很好的位置。硅谷是在機(jī)器學(xué)習(xí)、自動(dòng)無(wú)人駕駛汽車、生物信息學(xué)等領(lǐng)域推動(dòng)信息化的公司發(fā)展的最佳平臺(tái),而且精品供應(yīng)商的高密度數(shù)據(jù)中心空間也不乏需求。
上圖:Colovore公司數(shù)據(jù)中心地板下方一覽,該圖顯示了支持水冷卻門(mén)的基礎(chǔ)設(shè)施。 (照片來(lái)源:Colovore公司)
對(duì)AI硬件的需求激增
而市場(chǎng)對(duì)于由Colovore公司和ScaleMatrix公司所提供的基礎(chǔ)設(shè)施的需求可能會(huì)持續(xù)性的增長(zhǎng)。機(jī)器學(xué)習(xí)目前還僅僅處在早期階段,而大型云平臺(tái)企業(yè)(包括諸如Google,F(xiàn)acebook,微軟和阿里巴巴等等幾家公司)正在使用該技術(shù)進(jìn)行生產(chǎn)。當(dāng)前,該領(lǐng)域的許多活動(dòng)包括開(kāi)發(fā),但這項(xiàng)工作仍然需要消耗大量的GPU功率。
Nvidia公司表示,目前市場(chǎng)對(duì)于AI硬件的需求正在激增,其中絕大部分都是由像亞馬遜網(wǎng)絡(luò)服務(wù)(Amazon Web Services),谷歌云平臺(tái)(Google Cloud Platform)和微軟Azure這樣的企業(yè)級(jí)云巨頭所推動(dòng)的,這些企業(yè)同時(shí)也提供機(jī)器學(xué)習(xí),從而增強(qiáng)了云服務(wù)和原始的GPU功耗。市場(chǎng)對(duì)于最強(qiáng)大的云GPU實(shí)例的可用性極為渴求。Nvidia公司的Ober表示說(shuō):“目前,擁有GPU實(shí)例的云服務(wù)供應(yīng)商們正在獲得令人難以置信的消費(fèi)和關(guān)注度。” “這真的表明了當(dāng)前的企業(yè)客戶正在轉(zhuǎn)移到采用他們所能夠獲得的最大的實(shí)例。”
作者:佚名來(lái)源:機(jī)房360