在舉行的Hot Chips大會(huì)上,英特爾將擋在Knights Mill前的帷幕小小地拉起了幾分——Knights Mill是英特爾針對(duì)機(jī)器學(xué)習(xí)應(yīng)用而研發(fā)的一款Xeon Phi處理器。
作為英特爾在AI領(lǐng)域多管齊下的一部分,“Knights Mill”代表了該芯片制造商的第一個(gè)專門(mén)針對(duì)機(jī)器學(xué)習(xí)市場(chǎng),專門(mén)用于訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的Xeon Phi產(chǎn)品。在深度學(xué)習(xí)推論方面,英特爾推出了其基于Altera的FPGA產(chǎn)品,微軟在其Azure云(對(duì)人工智能和網(wǎng)絡(luò)加速)中大量使用了該產(chǎn)品。英特爾還在開(kāi)發(fā)其他機(jī)器學(xué)習(xí)產(chǎn)品,用于訓(xùn)練工作,這些產(chǎn)品將來(lái)自公司去年收購(gòu)的Nervana公司。
與此同時(shí),Knights Mill將用來(lái)填補(bǔ)目前Knights Landing處理器——用于HPC的Xeon Phi芯片——和未來(lái)的基于Nervana的產(chǎn)品之間的空白。在這種情況下,Knights Mill將從Knights Landing中繼承大部分的設(shè)計(jì),最明顯的改變是硅的數(shù)量,致力于獲得更精確的數(shù)學(xué)性,最適合于神經(jīng)網(wǎng)絡(luò)的運(yùn)算。
從本質(zhì)上講,Knights Mill用一個(gè)較小的雙精度端口和四個(gè)向量神經(jīng)網(wǎng)絡(luò)指令(VNNI)端口,取代了Knights Landing的矢量處理單元(VPU)上的兩個(gè)大的雙精度/單精度浮點(diǎn)(64位/ 32位)端口。后者支持單精度浮點(diǎn)和混合精度整數(shù)(16位輸入/ 32位輸出)。因此,它看起來(lái)像是張量處理單元(TPU)的英特爾版,它在NVIDIA的新V100 GPU的張量核心中有對(duì)應(yīng)物。不過(guò),后者仍然是更傳統(tǒng)的16 / 32位浮點(diǎn)運(yùn)算。
最終的結(jié)果是,與Knights Landing相比,Knights Mill將提供一半的雙精度浮點(diǎn)性能,兩倍的單精度浮點(diǎn)性能。在VPU(256 ops/cycle)中添加了VNNI整數(shù)支持,英特爾聲稱Knights Mill將提供4倍于深度學(xué)習(xí)應(yīng)用的性能。
使用整數(shù)單元來(lái)增強(qiáng)深度學(xué)習(xí)性能的方法有些不太傳統(tǒng),因?yàn)榇蠖鄶?shù)應(yīng)用程序都使用浮點(diǎn)運(yùn)算。然而,英特爾堅(jiān)持認(rèn)為,浮點(diǎn)數(shù)在準(zhǔn)確性方面幾乎沒(méi)有優(yōu)勢(shì),而且在計(jì)算上更昂貴。這種權(quán)衡是否成功還有待觀察。
Knights Mill還將支持16 GB的MCDRAM——組裝在一個(gè)3D堆棧中的英特爾版on - package高帶寬內(nèi)存——以及6個(gè)DDR4內(nèi)存通道。從他們?cè)贖ot Chips(上圖)公布的圖表上看,這個(gè)設(shè)計(jì)似乎支持72核,至少對(duì)于這個(gè)特殊的配置而言是這樣。為VPU提供256個(gè)ops / cycle值,這意味著Knights Mill可以交付——以1.5 GHz處理器來(lái)說(shuō)——超過(guò)27萬(wàn)億次的深度學(xué)習(xí)性能。
實(shí)際性能是多少,我們會(huì)在英特爾開(kāi)始生產(chǎn)該產(chǎn)品之后得知。據(jù)悉,Knights Mill計(jì)劃于今年第四個(gè)季度推出。
源自 it168網(wǎng)站原創(chuàng) 作者: 謝濤