AI與云時代的存儲芯片技術創新
AI與云時代下,存儲芯片亟待走出一條革新之路。
當云計算步入“算力-存力-運力”協同共生的關鍵階段,當PB級數據洪流與AI大模型萬億級參數訓練和每秒上萬token推理需求相疊加,存力已經從計算的“支撐底座”躍升為“創新引擎”。作為先進存力核心載體的存儲芯片,其技術突破將有力促進云服務的質量和效益,也影響著AI訓練和推理的效率和成本。這對傳統存儲技術體系提出多重挑戰,存力發展新航道有待開辟。
日前,聚焦“算網一體化中的存力挑戰”,工信智媒體(通信世界)以“存力革命新引擎:AI與云時代的存儲芯片技術創新”為討論主題,邀請信通院、運營商、憶恒創源以及平頭哥半導體等行業專家進行座談,深入分析AI與云時代下存力發展的重重困境,探索存儲芯片技術的創新曙光,以及存算網生態協同帶來的無限機遇。
當前,隨著AI與云規模化擴張,高頻實時場景逐漸深化,存力需滿足的核心性能指標也呈現“三高一動態”特征:
高IOPS支撐多租戶并發訪問
高帶寬適配大數據傳輸
高可靠保障核心業務連續性
動態擴展能力匹配云資源按需分配特性
這使得傳統存儲技術體系“應接不暇”,供需失衡成為制約算力效率釋放的關鍵瓶頸。
從技術側來看,中國信通院云大所數據中心部工程師高偉絢介紹,因為傳統架構里,存儲和計算是分離的,很多時候算力受存儲 I/O 瓶頸制約,導致算力利用率下降。AI時代存力需匹配算力的低時延、高帶寬、高并發等需求,產業正在進行近存計算等技術探索,推動存算協同優化。
不同場景的存力訴求差異顯著且日益精細化。“不同計算對存儲的需求不同,但總體來看就是計算的發展速度要比存儲的發展速度快,所以需要通過各種方式不斷‘壓榨’存儲性能。”中國移動數智化部高級項目總監高從文指出。“例如,目前的熱點技術GPU直通技術,就是繞過CPU直接訪問各類存儲設備,以提升帶寬和延遲性能。我們也在ODCC存儲特設組開展了相關研究。”
在AI與云時代的存力需求變局中,政策層面的量化目標為產業發展錨定了清晰方向。
工信部等六部門聯合印發的《算力基礎設施高質量發展行動計劃》明確,到2025年,先進存儲容量占比達到30%以上。而SSD作為先進存力的核心載體,無疑是實現這一目標的關鍵抓手。但SSD如何從“替代機械硬盤”走向“定義先進存力標準”仍存在多重鴻溝。
從技術路徑看,“全閃替代HDD”已成為行業共識,但成本控制與性能釋放的平衡是核心難點。中國移動云存儲首席架構師周宇提出,應該讓存儲主動去貼合計算,在性能優化方面,可以考慮用先進SSD、FTP、DNS等存儲方式;聚焦成本與效能平衡,可以探索用相對低成本的QLC做冷數據存儲,替代HDD。不僅如此,還可通過自研SPU芯片管理更多SSD,打造高密服務器,在推進國產化的同時降低全閃存儲成本、提升效能。
對此,天翼云基礎硬件總監龐瑋認為,先進存力從應用角度來看,更希望它能夠幫助應用以及業務解決一些核心痛點。在不同場景下,不同介質選擇也各有側重,應根據存儲分級匹配數據價值與介質特性。例如通算場景用QLC、SSD、消費級顆粒降成本,智算場景用HBM、SCM(非易失性內存)滿足高性能需求。
具體到SSD主控芯片在設計研發時應該如何適應先進存力需求,平頭哥半導體產品總監周冠鋒介紹,SSD具有大量可定制開發的技術點,可以通過芯片和固件方面的技術,一方面可以盡量不增加成本的同時,對可靠性、時延等加以優化,另一方面可以通過軟硬結合的架構創新和算法創新,提升NAND的利用率和適用性,從而優化存儲成本。“這需要主控、SSD公司、NAND三者共同的努力。”
具體來看,如時延的優化,SSD時延由主控芯片內在時延、NAND固有時延、后臺操作時延等多種因素影響。以鎮岳510為例,主控芯片內部實現IO命令和數據DMA的全自動化,實現了全路徑表項操作的硬件加速,從而大幅降低芯片的內在時延。此外,憑借NAND的suspend/resume和鎮岳510的最優電壓預測技術,可進一步有效降低NAND固有時延。
正如SSD的進階離不開產業鏈協同,憶恒創源產品總監朱磊強調,從SSD廠商的角度來說,多樣化的負載,要求我們更加注重產品在多場景下的性能優化,將各方面都做到極致。同時,憶恒創源還與OEM等存儲廠商緊密配合,雙方產品深度適配,借助存儲架構層面、文件系統等層面的進一步優化,充分發揮存儲性能,為用戶提供更具成本與性能優勢的存儲方案。
值得一提的是,當前“東數西算”工程作為優化算力布局的國家戰略,為存力發展帶來新機遇的同時,也提出了跨域存儲的嚴苛要求,成為檢驗存儲芯片適配能力的“試金石”。
與會專家一致認為,“東數西算”不僅帶來了跨域時延與數據調度難題,也對存儲芯片的適配性提出更高標準。對此,存儲芯片一方面需要支持存儲設備與國產云服務器高度兼容,保障跨地域部署的穩定性;另一方面需具備靈活的資源調度能力,支持熱點數據在東西部節點間流暢實現動態遷移。
中國信通院云大所所長何寶宏認為,隨著算網一體、存算一體發展,存儲可以借鑒計算領域的“Scrapy”概念,通過網絡實現規模化擴展。存力不足時可借助算力與網力補充,網絡能力受限可通過存力與算力解決,三者協同是核心發展方向。
存算網一體化在場景落地中,離不開產業鏈的協同創新。回到存儲芯片革新上,行業正通過“聯合定制+標準共建”推動存儲技術與產業需求深度匹配。
一是由運營商云主導標準制定,通過集采明確存儲芯片的云適配標準,指導芯片廠商聚焦行業標準與需求進行場景創新,避免技術與實際需求脫節。
二是芯片廠商與云服務商聯合定制,芯片廠商針對云存儲場景優化并再與云服務商的存儲架構、文件系統深度適配,最終實現“芯片性能-云架構效率”的最大化釋放。
對此,劉宏偉提出了可計算存儲概念,作為存算協同的理念之一,該理念思考的是如何降低存儲系統整體TCO、提升資源利用率方便實現新一代SSD。
周冠鋒建議搭建跨領域合作平臺,聚合運營商、云服務商等需求,提煉共性功能融入芯片設計,從而發揮規模效應。
“綜合來看,無論是存算網協同發展,還是存力挑戰的破解,從來不是某一家企業、某一項技術的‘獨角戲’,而是運營商、芯片廠商、設備廠商、研究機構、行業用戶共同搭建的‘生態合唱’。”工信智媒體(通信世界)總編輯劉啟誠講道。
積力之所舉,則無不勝;眾智之所為,則無不成。可以預見的是,未來的存算網體系,必將超越單一設備的性能堆砌,走向以數據為中心、以場景為導向的系統級創新。將目光投向存力,在這場跨越技術與時代的演進中,沒有旁觀者,只有同行者。而答案,或許就寫在協同創新、開放共贏的道路之上。