<strike id="0k9r3"><p id="0k9r3"></p></strike>
  • <form id="0k9r3"></form>
    <nav id="0k9r3"></nav>
    <em id="0k9r3"><p id="0k9r3"></p></em>
  • <tr id="0k9r3"><source id="0k9r3"></source></tr>
    <form id="0k9r3"></form>
    <sub id="0k9r3"></sub>

      <sub id="0k9r3"><address id="0k9r3"></address></sub>
      1. <form id="0k9r3"></form>

        24小時聯系電話:18217114652、13661815404

        中文

        您當前的位置:
        首頁>
        電子資訊>
        技術專題>
        電阻式存儲器為邊緣AI...

        技術專題

        電阻式存儲器為邊緣AI提供了受生物啟發的架構


        近年來,在腦啟發計算領域的研究活動獲得了巨大的發展。主要原因是試圖超越傳統的馮·諾依曼架構的局限性,后者越來越受存儲器-邏輯通信的帶寬和等待時間的局限性影響。在神經形態架構中,內存是分布式的,可以與邏輯共定位。鑒于新的電阻式存儲器技術可以集成在CMOS工藝的互連層中,因此可以輕松地提供這種可能性。

        雖然目前AI部署中的大部分注意力都集中在大型常規計算系統中實現深度學習算法,但對設備和電路技術的影響卻是混雜的。盡管先進的標準CMOS技術已用于開發GPU和特定的電路加速器,但并沒有真正推動使用任何受生物啟發的硬件。新興的電阻式存儲設備(RRAM)可以打開途徑,由于能夠(感知到)不夠成熟,可以通過在相對較低的偏置電壓下調節電導來在納米尺度上模擬生物學上合理的突觸行為,因此這些方法僅限于研究組。技術。

        但是,這些新設備可以為將AI大量部署到消費和工業產品中所面臨的主要問題之一提供解決方案:能源效率。如果將AI的使用范圍擴大,將所有數據傳輸到云/服務器系統進行分析的能源開銷將很快達到AI的經濟可行性的極限。此外,對于自動駕駛汽車和工業控制等實時系統而言,如果連接到5G基礎架構以處理數據的服務器集中在定義明確的區域而不是分布在整個基礎架構中,則延遲仍然是一個問題。由于這些原因,并且在歐洲也出于隱私考慮,具有高度節能的邊緣/使用點的,具有AI的系統將變得越來越重要,并且可能會逐步改善本地學習能力。

        嵌入式AI系統非常適合處理需要實時響應的數據,并且在能源是主要問題的情況下。如tinyML計劃的成功所證明的那樣,對此類系統的興趣正在增長[1]。當處理稀疏,時域,由傳感器(如麥克風,激光雷達,超聲波等)生成的數據流時,該領域的生物啟發(即存儲元件還充當互連和計算元件)方法具有額外的優勢。這些系統將然后能夠在模擬域中進行大多數操作,從而避免了耗電,不必要的多次模數轉換以及使用非時鐘數據驅動架構來簡化數據流。僅在信號脈沖期間沒有時鐘和存儲元件中的耗散,在沒有輸入的情況下會導致極低的功耗(因此適用于稀疏信號),并且可能不需要特定的睡眠模式即可獲得電池供電的工作狀態。而且,非易失性僅在首次上電或系統最終更新時才需要設置參數,而在每次上電時都不需要從外部來源進行傳輸。

        但是,使用新型電阻式存儲器不僅限于此類邊緣生物啟發應用,還可以使執行慢速非易失性高速緩存/快速大容量存儲中間存儲器功能的傳統全數字時鐘系統受益神經加速器的水平。在這種情況下,好處將是減少快速DRAMSRAM緩存區域,同時仍減少訪問大容量存儲的延遲。

        生物啟發式計算的硬件平臺

        從技術角度來看,RRAM由于具有CMOS兼容性,高可伸縮性,強大的耐用性和良好的保留特性,因此是神經形態應用的良好候選者。但是,定義大規?;旌霞缮窠浶螒B系統(具有阻性記憶突觸的CMOS神經元)的實際實施策略和有用應用仍然是一個困難的挑戰

        已經提出了諸如相變存儲器(PCM),導電橋RAMCBRAM)和氧化物RAMOxRAM)之類的電阻RAMRRAM)設備來模擬生物學上受突觸功能啟發的功能,這些功能對于實現神經形態硬件至關重要。在不同類型的模擬突觸特征中,依賴于尖峰時序的可塑性(STDP)是最常用的一種,但肯定不是唯一的可能性,并且某些可能顯示出對實際應用的實現更為有用。

        實施這些思想并驗證該方法的電路示例是SPIRIT,由IEDM 2019提出[2]。已實現的SNN拓撲是單層的,完全連接的拓撲,其目的是在MNIST數據庫上執行推理任務,有10個輸出神經元,每個類一個。為了減少突觸的數量,將圖像縮小到12×12像素(每個神經元144個突觸)。使用單級單元(SLCRRAM實現突觸,即僅考慮低和高電阻級別。結構為1T-1R類型,每個單元帶有一個訪問晶體管。多個單元并聯連接以實現各種重量。在學習框架上進行的突觸量化實驗表明,介于-4+4之間的整數值是分類精度和RRAM數量之間的良好折衷。由于我們旨在獲得加權電流,因此必須使用4RRAM作為正權重。對于負權重,也可以使用RRAM對符號位進行編碼:但是,由于將需要容錯三重冗余,因此最好使用4個附加RRAM來實現負權重。

        集成與射擊(IF模擬神經元設計是在數學等效性的指導下進行的,該數學等效性是在有監督的離線學習中使用的tanh激活函數。規格如下:(1)突觸重量等于±4的刺激必須產生尖峰;(2)神經元必須產生正負尖峰;(3)它們必須有一個不應期,在此期間它們不能散發尖峰,但必須繼續積分。神經元是圍繞MOM 200fF電容器設計的。使用兩個比較器將其電壓電平與正閾值和負閾值進行比較。由于必須在RRAM的端子之間以不超過100mV的電壓降讀取RRAM,因此,為了防止將設備設置為LRS,所獲得的電流不能被神經元直接積分,因此它們會被電流注入器復制。評估了編程條件的影響,并使用足夠的編程條件來確保有足夠大的內存窗口。放松機制的確出現在很短的時間范圍內(不到一小時)。因此,分類精度不會隨時間降低。還驗證了讀取穩定性,將高達800M的峰值發送到電路。

        MNIST數據庫的10K測試圖像上的分類精度測得為84%。該值必須與88%的理想模擬獲得的精度進行比較,該精度受簡單的網絡拓撲限制(1層具有10個輸出神經元)。每個突觸事件的能量耗散等于3.6 pJ。當考慮電路邏輯和SPI接口時,它總計為180 pJ(可以通過優化通信協議來降低它)。測量表明,圖像分類平均需要136個輸入峰值(對于ΔS= 10):每個輸入所累積的峰值少于一個峰值,與130nm節點中的等效形式編碼MAC操作相比,能量增益提高了5倍。能量增益來自(1)基本操作的輕度(累積,而不是像經典編碼中那樣進行乘法累加)和(2)由于尖峰編碼而導致的活動稀疏性。稀疏性的好處將隨著層數的增加而增加。

        這個小演示者展示了如何可以與傳統的嵌入式方法相提并論,但功耗卻大大降低了。實際上,在SNN演示中使用的速率代碼使該實現等效于經典編碼的實現:從經典域到尖峰域的代碼轉換不會引起準確性上的任何損失。但是,從概念驗證中使用的簡單拓撲(即單層感知器)可以解釋,與使用更大網絡和更多層的最新深度學習模型相比,分類精度略低。為了克服這種差異,目前正在實施一種更為復雜的拓撲結構(MobileNet類),并且分類精度將相應提高,同時具有相同的能源優勢。

        相同的方法將擴展到嵌入了麥克風或激光雷達的電路,以本地和實時分析數據流,從而無需通過網絡傳輸。速率編碼和時間編碼策略都可以用于優化網絡,具體取決于信號的信息內容。最初,學習將集中進行,并且僅將推理集成到系統中,但是在以后的世代中將引入一定程度的增量學習。

        利用對嵌入式AI產品有益的屬性RRAM的另一種方法是使用基于RRAM交叉開關陣列的模擬架構。與傳統的數字實現相比,它們可以提供更密集的乘法累加器(MAC)功能實現,在推理和學習電路中居于中心。如果采取進入時域并消除時鐘的進一步步驟,則可獲得超出當前技術水平的緊湊型低功率系統。盡管這種方法非常有前途并且受到學術界的廣泛研究,但該方法仍未被業界廣泛接受,這指出了設計,驗證,表征和認證模擬異步設計的難度,以及擴展模擬解決方案的難度。在我們看來,

        這些記憶的部分感知困難來自觀察到的變異性,但這是實驗條件的反映。當在300mm內工作并且集成過程更加成熟時,我們觀察到更好的分布,因此我們假設可變性問題可以在工業化過程中解決。設計工具也即將問世,更精確的模型也逐漸可用。溫度變化當然會產生影響,但是這種計算類型的統計性質及其在推理階段對參數變化在某種程度上具有固有的魯棒性,因此其最終影響遠不如使用社區的常規模擬設計那么重要。模擬交叉開關方法的優點之一是,當施加數據時,自動沒有電流。

        有些問題更為根本。第一個是功率效率和高度并行性來自權衡時間復用(工作頻率)與面積的關系:權衡有利的網大小(問題或類別數量)的極限是多少?它如何取決于實現節點?另一個是這些存儲器的可循環性。雖然對于推理階段就足夠了,并且可以在初始化階段以可接受的開銷進行交叉開關的編程,但是由于過多的寫入負載,使用經典的反向傳播方案和迭代次數的片上學習是毫無疑問的。但是,正在探索使用其他學習方法的非常有前途的途徑,并有望在未來幾年內提供有效的解決方案。

        在引入這種類型的電路之前,可以在常規實現中使用RRAM3D集成等技術來以較小的功率預算和較小的尺寸系數提供解決方案。如今,用于高度定制化應用的FPGA實現,運行在MCUCPU上的純軟件實現,或專用于GPU的高度并行多核/加速器(類似于或類似的GPU)用于更通用的應用,已成為當今的主流。所有這些都可以從本地非易失性存儲器中受益,這可以使FPGA變得更緊湊,為MCU / CPU和多核/加速器芯片提供更優化的存儲器層次結構。

         

        請輸入搜索關鍵字

        確定
        国产在线视频在线