從ChatGPT掀起全民AI熱潮,到DeepSeek、千問3等本土大模型接連崛起,算力早已超越傳統硬件范疇,成為國家戰略競爭的新制高點。據中國信息通信研究院發布的《中國算力發展指數白皮書(2022 年)》顯示,預計到2030年,全球算力規模將達到56 ZFLOPS,年平均增長率為65%。
在這場算力爭奪戰中,聯想作為行業重要參與者,正通過一系列創新舉措構建自身競爭優勢。
近日,聯想以2025創新科技大會為舞臺,在聯想AI算力基礎設施技術創新論壇暨春季新品發布會上,推出六大創新技術與兩大重磅升級,正式推出堪稱“算力矩陣”的重磅武器——聯想萬全異構智算平臺3.0、全新算力服務器家族、聯想凌拓全新存儲產品家族和針對多種規模構建的AI算力集群的智能網絡體系以及創新技術與產品,并升級AIO V6系列產品和聯想問天WX系列虛擬化超融合8.0.2版本
我們好奇,隨著大模型規模的不斷擴展、應用場景的日益復雜,AI算力基礎設施行業面臨哪些挑戰?聯想新發布的聯想萬全異構智算平臺3.0以及服務器產品實力如何,能否應對挑戰?未來,聯想在服務器及智算平臺這兩個賽道又將有怎樣的戰略規劃與布局?
AI浪潮下,算力基礎設施面臨五大挑戰
IT基礎設施作為算力的物質基礎和核心載體,在行業數字化發展的各個方面都起著不可或缺的作用。如今,隨著以DeepSeek為代表的開源大模型走進千行百業,算力基礎設施面臨新挑戰。
第一,算力需求多樣化。從基礎模型的預訓練到推理模型、多模態模型的應用,以及從簡單的對話機器人到AI Agent、具身智能的發展,對服務器等設施算力需求也變得更加多樣化,這就要求算力基礎設施能夠提供預訓練算力、訓推算力、推理算力等更全面多樣的AI算力。
第二,算力基礎設施需要更高性能。模型本地部署的應用潮流,對大模型一體機的單機性能提出了極致要求,需要服務器具備更強的計算能力、更高的存儲容量和更快的讀寫速度,以滿足本地模型的高效運行。
同時,萬卡、十萬卡級算力集群的出現,要求在超大規模算力集群里,實現“算存網”能力的高效協同,以避免因某一環節的性能瓶頸而影響整個集群的算力發揮。
第三,算力基礎設施需要更高能效。AI算力的增長對電力需求提出了更多挑戰,如何在滿足算力需求的同時,降低數據中心的能耗,實現綠色計算,是服務器及算力基礎設施面臨的重要問題。
第四,算力基礎設施需要更高可靠性。在AI計算中,尤其是大規模的分布式訓推過程中,硬件故障可能導致整個集群計算水平大幅度下降。這就要求算力基礎設施具備更高的硬件可靠性和故障自愈能力。
第五,算力基礎設施需要提高通信效率。以DeepSeek為代表的MoE架構大模型,在訓推過程中的通信復雜度呈指數級增長,與傳統的稠密模型相比,各個專家間需要不斷地通信、協同計算,導致多個GPU間頻繁交互,這對AI服務器之間的通信網絡提出了更高的要求。
技術突圍!聯想兩大利器破解算力困局
如何破解大模型時代算力基礎設施面臨的諸多挑戰?在聯想看來,唯有創新才是破解挑戰的唯一選擇。
回首過去,當行業面臨大模型預訓練和傳統模型推理的算力訴求時,聯想通過技術創新,推出聯想萬全異構智算平臺四大技術,筑牢大模型發展底座。
如今,聯想依舊以創新為引領,打造大模型時代的堅實底座,在本次大會上推出聯想萬全異構智算平臺3.0與全新算力服務器家族兩大核心“利器”。
利器一:發布聯想萬全異構智算平臺3.0
聯想中國基礎設施業務群戰略管理部總監黃山表示,聯想萬全異構智算平臺3.0進一步推出五大差異化技術,幫助用戶在AI預訓練、后訓練、推理的過程中取得最高效、最穩定的算力。具體而言,五大技術將帶來算力設施如下升級。
其一,AI推理加速算法集,可對MLA等業界新型方法進行工程實踐落地,并結合聯想積累的混合精度量化、分布式并行等方法二次優化,將DeepSeek等大模型的推理性能提升5-10倍,單臺8卡GPU服務器采用該平臺后可支持190路用戶同時使用DeepSeek滿血版,相比業界最優社區方案保持20%性能優勢,滿足用戶對推理高吞吐量、低延時的訴求。
其二,AI編譯優化器,能在構建AI計算圖過程中,采用臨近算子融合、高效算子替代和簡化計算路徑等方式,結合與GPU戰略伙伴的研發成果優化算子,經其優化后,AI訓練后推理的計算開銷至少降低15%,且分布式訓練或推理規模越大,效果越顯著。
其三,AI訓推慢節點故障預測與自愈系統,基于聯想三年以上積累的AI訓推故障特征庫并訓練故障預測模型,實現用AI模型預測AI故障。系統通過異步訓練檢查點或推理備份準備故障恢復環境,故障發生時自動排除故障點,實現百卡集群故障秒級恢復、千卡分鐘級恢復、萬卡十分鐘級以內恢復。
其四,專家并行通信算法,針對MoE架構大模型訓推中all to all通信方式帶來的指數級通信復雜度問題,研發細粒度的計算通信協同優化算法,在底層核函數層面實現計算與通信過程高度并行,將推理延遲降低300%以上,網絡帶寬利用率從50%提升到90%。
其五,智能資源調度引擎,可基于實時負載感知與異構算力特征,動態優化GPU/CPU/DPU等資源分配策略。通過拓撲感知的任務調度算法,將多模態模型訓推任務與硬件架構精準匹配,使混合算力集群利用率提升25%以上,端到端任務執行效率提高30%,全面釋放異構算力潛能。
利器二:全新算力服務器家族
聯想中國基礎設施業務群服務器產品部總經理周韜在發布會上指出,聯想在服務器發展中一直通過引領服務器技術創新,為客戶重新定義新的算力。如今,面對大模型后訓練時代,聯想選擇再次進化服務器,并重新定義算力。本次聯想推出的全新算力服務器家族,可面對不同AI應用場景,充分釋放AI服務器的算力潛能。