欧美成人福利一区二区三区-日本激情五月婷婷-国产一区精品成人-国产三级在线观看免费-欧美韩日国产在线-欧美黄色一级录影带-久久亚洲精品三区

Hi,歡迎
+86 135 5637 6665 +852 2632 9637 6*12小時在線電話
AI高性能計算---AI芯片設(shè)計
2023-08-22

AI芯片最簡單直接設(shè)計思路就是將神經(jīng)元直接映射到硬件芯片上,如圖所示,全硬件實(shí)現(xiàn)方案(Full-Hardware Implementation)將每個神經(jīng)元映射為一個邏輯計算單元,每個突觸映射為一個數(shù)據(jù)存儲單元,這種架構(gòu)設(shè)計可以實(shí)現(xiàn)一個高性能且低功耗的AI芯片,比如Intel ETANN芯片。在全硬件實(shí)現(xiàn)方案中上一層輸出數(shù)據(jù)和權(quán)重相乘,相乘的結(jié)果再相加,然后再經(jīng)過一個激活函數(shù)輸出到下一層計算。這種架構(gòu)設(shè)計將計算和存儲緊密的耦合在一起,使得芯片在進(jìn)行高速計算的同時由能避免大規(guī)模的數(shù)據(jù)訪存,在提高整體計算性能的同時也降低了功耗。

未標(biāo)題-1


全硬件實(shí)現(xiàn)方案具有設(shè)計簡單、計算性能高、功耗低等特定,但它僅適用于小規(guī)模的神經(jīng)網(wǎng)絡(luò)計算,對于大型神經(jīng)網(wǎng)絡(luò)的計算存在明顯的硬件限制。如圖所示,當(dāng)網(wǎng)絡(luò)層的節(jié)點(diǎn)為16 x 16時,芯片面積只需要0.71 mm2 ,但當(dāng)網(wǎng)絡(luò)層的節(jié)點(diǎn)為32 x 32時,芯片面積則需要2.66 mm2 ,當(dāng)網(wǎng)絡(luò)層包含的節(jié)點(diǎn)進(jìn)一步增大時所需要的芯片面積和能耗將大幅提升,所以直接映射方案已經(jīng)不能滿足當(dāng)前規(guī)模越來越大的深度學(xué)習(xí)算法發(fā)展。

未標(biāo)題-2

ASIC芯片的設(shè)計基本都是針對領(lǐng)域計算特性,圍繞訪存、能耗、吞吐率、成本、靈活性等指標(biāo)進(jìn)行優(yōu)化和設(shè)計。隨著深度學(xué)習(xí)算法發(fā)展,神經(jīng)網(wǎng)絡(luò)深度和規(guī)模越來越大,網(wǎng)絡(luò)結(jié)構(gòu)也從CNN為主的網(wǎng)絡(luò)架構(gòu)設(shè)計逐漸演變到Transformer為主的網(wǎng)絡(luò)架構(gòu)設(shè)計,算法對芯片需求也從計算密集性過度到存算密集性,AI芯片的設(shè)計也從偏計算走向存算一體的混合計算模式。具體體現(xiàn)在:

  • 底層架構(gòu):從存算分離到存算一體設(shè)計。

  • 數(shù)據(jù)通信:從高速數(shù)據(jù)通信到低精度計算和稀疏計算。

  • 模型設(shè)計:從模型-硬件獨(dú)立設(shè)計到模型-軟硬件聯(lián)合優(yōu)化設(shè)計。

時域計算

時域計算指采用定制化指令集的專用處理器,其通過指令流水線對邏輯計算單元(Arithmetic Logic Unit, ALU)和存儲系統(tǒng)進(jìn)行統(tǒng)一管理和調(diào)度,ALU流水線從存儲系統(tǒng)中讀取數(shù)據(jù),經(jīng)過多級流水線處理后將最終運(yùn)算結(jié)果寫回存儲系統(tǒng)。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型主要是大量的線性代數(shù)運(yùn)算,而控制流程則相對簡單,所以,AI芯片通常采用高度并行的計算架構(gòu)設(shè)計,為了提高處理器并行計算能力,需要讓一條指令同時針對多個數(shù)據(jù)元素執(zhí)行相同的操作?;谏疃葘W(xué)習(xí)的計算流程相對固定的特點(diǎn),多個固定步驟的計算可以通過多個ALU流水線設(shè)計來實(shí)現(xiàn)高效計算,比如矩陣運(yùn)算中的多數(shù)據(jù)乘累加計算。

未標(biāo)題-3

時域計算架構(gòu)


中國科學(xué)院計算技術(shù)研究所的DianNao系列架構(gòu)設(shè)計是一種典型的時域計算架構(gòu)設(shè)計。DianNao系列的芯片主要包含三部分:神經(jīng)功能單元(Neural Functional Unit, NFU)、三個不同功能片上存儲區(qū)和控制器。NFU和存儲通過控制器的指令進(jìn)行調(diào)度,運(yùn)算核心NFU按照卷積運(yùn)算流程劃分為乘法功能段NFU1、加法功能段NFU2以及非線性激活函數(shù)功能段NFU3的三級流水線設(shè)計。DianNao針對深度學(xué)習(xí)的計算特性進(jìn)行定制設(shè)計,使其在AI計算上能夠獲得比通用處理器更高的能效。

空域計算

與時域計算不同,空域計算中每個計算單元PE都具有獨(dú)立的控制單元和存儲單元??沼蛴嬎慵軜?gòu)通常由一維或二維PE陣列構(gòu)成,每個PE內(nèi)部自帶控制器和緩存,PE之間可以直接傳遞數(shù)據(jù)。除此之外,還有片上全局緩存、片外DRAM等不同層次存儲構(gòu)成的多級存儲系統(tǒng)??沼蛴嬎慵軜?gòu)利用大量PE陣列完成高效的并行計算,通過PE之間的數(shù)據(jù)流動減少處理器與主存之間的通信次數(shù)。

未標(biāo)題-4

空域計算架構(gòu)


Google TPU (Tensor Processing Unit)是空域計算架構(gòu)的典型代表之一,它包含一個256x256個MAC組成二維矩陣乘法陣列,此外其內(nèi)部還集成了歸一化/池化單元和非線性激活單元等。TPU的二維矩陣乘法陣列按照脈動陣列(Systolic Array)方式互連,PE計算的數(shù)據(jù)來自前一個時鐘周期中相鄰PE的計算結(jié)果,PE在當(dāng)前時鐘周期計算得到的結(jié)果則按同樣的方式流入相鄰的PE在下一個時鐘周期參與計算,由于數(shù)據(jù)在陣列中不同PE之間的流動像血液在血管中脈動傳輸一樣按照規(guī)定的節(jié)奏進(jìn)行傳遞和計算,所以稱之為脈動陣列架構(gòu)。

數(shù)據(jù)復(fù)用

數(shù)據(jù)復(fù)用指在計算過程中對同一數(shù)據(jù)進(jìn)行重復(fù)使用以減少對存儲器訪問次數(shù)。深度學(xué)習(xí)中的數(shù)據(jù)復(fù)用通常包括:輸入數(shù)據(jù)復(fù)用、輸出數(shù)據(jù)復(fù)用和權(quán)重數(shù)據(jù)復(fù)用。例如,在DianNao架構(gòu)中SB和NBin分別用來存儲權(quán)重和數(shù)據(jù)神經(jīng)元數(shù)據(jù),NFU單元用來進(jìn)行點(diǎn)乘和累加的運(yùn)算,輸出數(shù)據(jù)存儲在NBout中,在計算過程中輸出數(shù)據(jù)會先輸出到緩存器中直到完成所有的部分和的累加后才會被寫回。

存儲優(yōu)化

彌補(bǔ)計算單元和存儲器之間的差距的途徑主要包括:

  • 高帶寬的數(shù)據(jù)通信技術(shù),使用更先進(jìn)的通信技術(shù)提高數(shù)據(jù)傳輸?shù)男省?/p>

  • 通過增加片上存儲容量讓數(shù)據(jù)更靠近計算單元,減少數(shù)據(jù)在計算單元和內(nèi)存之間的搬運(yùn)成本。

  • 使用高密度片上存儲技術(shù),例如eDRAM存儲單元由晶體管和電容構(gòu)成,相比于SRAM具有更高的存儲密度。

  • 使用三維集成(3D Integration)存儲器技術(shù)將多塊存儲器在垂直方向上堆疊起來,以獲得更大存儲容量。

  • 直接在存儲器內(nèi)部實(shí)現(xiàn)計算,即存內(nèi)計算,目前受限制造工藝和計算精度等問題,其應(yīng)用范圍還比較有限。

鄭重聲明:文中僅代表作者觀點(diǎn),不代表本公司觀點(diǎn),本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或者刪除,感謝您的關(guān)注!


熱門資訊
光電器件有哪些主要特性
光電器件作為現(xiàn)代科技領(lǐng)域的重要組成部分,其在通信、能源、檢測等領(lǐng)域的應(yīng)用日益廣泛。光電器件的主要特性是其功能和應(yīng)用的基礎(chǔ),本文將對這些特性進(jìn)行詳細(xì)的探討,并闡述其在現(xiàn)代科技中的應(yīng)用。
LG Innotek
Brand: LG Innotekbrand introductionLG Innotek is a global component manufacturing company. - The c...
Lighting Science
Brand: Lighting Sciencebrand introductionLighting Science Group Corporation is the market leader i...
電磁式電壓互感器的工作原理和分類
電磁式電壓互感器通常用于電力系統(tǒng)中,用于測量高電壓輸電線路上的電壓。它們還可以用于監(jiān)測電力系統(tǒng)中的電壓波形和幅值,以便及時發(fā)現(xiàn)電力系統(tǒng)中的故障和問題。在本文中,我們將詳細(xì)介紹電磁式電壓互感器的工作原理和分類。
熱繼電器和熱過載繼電器區(qū)別
熱繼電器和熱過載繼電器都是常見的電氣保護(hù)設(shè)備,但它們的工作原理和保護(hù)對象有所不同。在本篇文章中,我們將詳細(xì)介紹熱繼電器和熱過載繼電器的區(qū)別。
鉭電容器的種類和封裝
鉭電容器是一種電子元器件,使用鉭金屬作為電極材料。它們通常分為有極性和無極性兩種類型,并且有多種不同的封裝形式。在本文中,我們將詳細(xì)討論鉭電容器的種類和封裝。
熱繼電器和熔斷器的區(qū)別
熱繼電器和熔斷器都是常見的電器元件,它們在電路中都起到了保護(hù)作用。雖然它們都可以在電路中斷開電路,但它們之間存在一些區(qū)別。在本篇文章中,我們將詳細(xì)介紹熱繼電器和熔斷器的區(qū)別。
FT2232開發(fā)板
采用FT2232芯片設(shè)計的開發(fā)板,將IO口完全引出,可在此基礎(chǔ)上設(shè)計接口擴(kuò)展板
AI高性能計算---存算一體
存算一體或存內(nèi)計算是將存儲與計算完全融合,直接利用存儲器進(jìn)行數(shù)據(jù)處理或計算。在傳統(tǒng)的馮諾依曼架構(gòu)下,數(shù)據(jù)的存儲和計算是分開的,由于存儲和計算的性能存在加大的差距,處理器訪問存儲數(shù)據(jù)的速率遠(yuǎn)遠(yuǎn)小于處理器計算速率,數(shù)據(jù)在內(nèi)存與主存之間搬運(yùn)的過程其能耗也遠(yuǎn)遠(yuǎn)高于處理器的計算所消耗的能量。
AI高性能計算---寒武紀(jì)NPU
寒武紀(jì)是國內(nèi)最早一批研究AI芯片公司,其AI芯片NPU (Neural network Processing Unit)的設(shè)計源于其早期一系列的AI芯片架構(gòu)研究,主要包括DianNao、DaDianNao、PuDianNao、ShiDianNao、Cambricon-X等一系列研究成果。
用戶信息:
電話號碼
中國大陸+86
  • 中國大陸+86
  • 中國臺灣+886
  • 中國香港+852
公司名稱
郵箱
產(chǎn)品型號
產(chǎn)品數(shù)量
備注留言
国产国产东北刺激毛片对白 | 又湿又紧又大又爽又A视频 一二三四社区在线中文视频 | 国产日产亚洲系列最新美 | 日韩在线视频一区二区三区 | 91国语精品自产拍在线观看性色 | 精品人妻无码一区二区三区在线 | 久久综合久久一区二区 | 麻豆蜜桃国产精品无码视频 | 夜夜爽妓女8888888视频 | 欧美激情视频一区二区三区不卡 | 亚洲精品白浆高清久久久久久 | 顶级欧美做受XXX000 | 无码精品人妻一区二区三区涩爱 | 精品亚洲一区二区在线播放 | 亚洲国产美女视频 | 久久se精品一区二区国产 | 手机永久免费的AV在线电影网无码 | 国产精品久久久久久久9999 | 国产精品成人影院在线观看 | 伊人天伊人天天综合网 | 好吊妞无码中文字幕在线视频 | 日韩欧美高清一区 | 捣烂宫口np失禁哭张开了h | 老师好大乳好紧好深动态图 | 少妇人妻偷人精品视蜜桃 | 在线观看免费国产视频 | 最近中文字幕在线中文视频 | 国产精品美女免费视频观看 | 色欲久久久久久综合网精品 | 国产剧情福利AV一区二区 | 欧美四虏免费一级成人片 | 天堂在线中文一区2区 | 日韩精品区一区二区三VR | 三级韩国2017在线观看 | 国产又黄又爽胸又大免费视频 | 精品人妻少妇一级毛片免费 | 东北美女野外bbwbbw免费 | WWW色视频片内射 | 欧美日韩在线精品一区二区三区激情综合 | 老师好大乳好紧好深动态图 | 国产精品系列在线一区 |