GPU在人工智能來(lái)臨的前夜火了,很多人的眼光也聚焦到了英偉達(dá)身上,隨之而來(lái)的,流言也就多了起來(lái)。有人認(rèn)為,GPU在人工智能的應(yīng)用存在一定的局限性。但這些只同留在TESLA V100發(fā)布之前,這塊手掌大小的芯片凝聚了 Nvidia 7000 多名工程師超過(guò) 3 年的研發(fā),投入資金 30 億美元。
據(jù)了解,TESLA V100 使用的 GPU 就是 Volta 架構(gòu)的首款產(chǎn)品 GV100。這塊手掌大小的芯片凝聚了 Nvidia 7000 多名工程師超過(guò) 3 年的研發(fā),投入資金 30 億美元。TESLA V100 集成了 210 億個(gè)晶體管、5120 個(gè) CUBA 內(nèi)核,雙精度浮點(diǎn)運(yùn)算性能達(dá)到 7.5 TFLOP/s、顯存帶寬為 900GB/S。
我們看看TESLA V100具體從哪些方面讓流言不攻自破:
流言一、GPU應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和應(yīng)用兩個(gè)計(jì)算環(huán)節(jié),GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效,但在應(yīng)用時(shí)一次性只能對(duì)于一張輸入圖像進(jìn)行處理, 并行度的優(yōu)勢(shì)不能完全發(fā)揮。
針對(duì)深度學(xué)習(xí)優(yōu)化的流式多處理器(SM)架構(gòu)。作為 GPU 處理器的核心組件,在 Volta 架構(gòu)中 NVIDIA 重新設(shè)計(jì)了 SM,相比之前的 Pascal 架構(gòu)而言,這一代 SM 提高了約 50% 的能效,在同樣的功率范圍內(nèi)可以大幅提升 FP32(單精度浮點(diǎn))和 FP64(雙精度浮點(diǎn))的運(yùn)算性能。專(zhuān)為深度學(xué)習(xí)設(shè)計(jì)的全新 Tensor Core 在模型訓(xùn)練場(chǎng)景中,最高可以達(dá)到 12 倍速的 TFLOP(每秒萬(wàn)億次浮點(diǎn)運(yùn)算)。
另外,由于全新的 SM 架構(gòu)對(duì)整型和浮點(diǎn)型數(shù)據(jù)采取了相互獨(dú)立且并行的數(shù)據(jù)通路,因此在一般計(jì)算和尋址計(jì)算等混合場(chǎng)景下也能輸出不錯(cuò)的效率。Volta 架構(gòu)新的獨(dú)立線程調(diào)度功能還可以實(shí)現(xiàn)并行線程之間的細(xì)粒度同步和協(xié)作。最后,一個(gè)新組合的 L1 高速數(shù)據(jù)緩存和共享內(nèi)存子系統(tǒng)也顯著提高了性能,同時(shí)大大簡(jiǎn)化了開(kāi)發(fā)者的編程步驟。
流言二, 硬件結(jié)構(gòu)固定不具備可編程性。深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU 無(wú)法像FPGA 一樣可以靈活的配置硬件結(jié)構(gòu)。
Tesla V100 的架構(gòu)設(shè)計(jì)初衷即為了實(shí)現(xiàn)更高的可編程度,讓用戶能夠在更復(fù)雜多樣的應(yīng)用程序中高效工作。Volta 是首款支持獨(dú)立線程調(diào)度的 GPU,可在程序中的并行線程之間實(shí)現(xiàn)更精細(xì)的同步與寫(xiě)作。提高線程寫(xiě)作的靈活性,最終實(shí)現(xiàn)更高效、更精細(xì)的并行算法。
第三, 運(yùn)行深度學(xué)習(xí)算法能效遠(yuǎn)低于FPGA。學(xué)術(shù)界和產(chǎn)業(yè)界研究已經(jīng)證明,運(yùn)行深度學(xué)習(xí)算法中實(shí)現(xiàn)同樣的性能,GPU 所需功耗遠(yuǎn)大于FPGA,例如國(guó)內(nèi)初創(chuàng)企業(yè)深鑒科技基于FPGA 平臺(tái)的人工智能芯片在同樣開(kāi)發(fā)周期內(nèi)相對(duì)GPU 能效有一個(gè)數(shù)量級(jí)的提升。
全新的最大節(jié)能模式可允許數(shù)據(jù)中心在現(xiàn)有功耗預(yù)算內(nèi),每個(gè)機(jī)架最高提升 40% 的計(jì)算能力。在此模式下,Tesla V100 以最大處理效率運(yùn)行時(shí),可提供高達(dá) 80% 的性能,而只需一半的功耗。
當(dāng)然,Tesla V100 并不是終點(diǎn),但可以看到的是,不論英偉達(dá)還是GPU,都在隨著人工智能的發(fā)展逐漸走向成熟。
it168網(wǎng)站原創(chuàng) 作者: 張存