2025年如何估計大語言模型微調與訓練的硬體成本

評估大語言模型(Large Language Model, LLM)微調和訓練所需的硬體成本,是一個常見且重要的問題。在實際專案中,演算法能否成功運作是一回事,能否在預算內運作則是另一回事。 硬體成本往往是決定專案能否順利推動的關鍵因素,因此評估硬體成本是資訊專案管理者的日常工作之一。也反映出你對於大型模型工程化部署的整體掌握能力。這類問題不同於單純的演算法,它能直接顯示你對模型訓練工程體系的理解深度。 喔對了,這是上一篇「 推理篇 」(如果你有興趣參考,會另開視窗)的續集沒錯,但沒有「家用」標題了。LLM微調與訓練不是家用消費主機能做的。 對於緻密模型 (Dense Model) 的硬體成本評估 緻密模型 (Dense Model) 指的是在推論或訓練時,每次都會載入所有參數的模型。舉例來說,一個參數為 80 億的Llama 8B 模型,就是一個緻密模型,每次訓練或推論都會帶入全部的 80 億個參數。 對於這種架構的模型,若採用全量微調(Full Fine-Tuning),由於每一步計算都會啟動所有參數,硬體成本的評估邏輯相對直接。以一個 22B 的緻密模型為例,在全量微調(Full Fine-Tuning)時,通常會用到 16-bit 浮點數(FP16),所需的 VRAM 大致是: 參數數 × 16 (FP16) + 梯度 × 16 (FP16) + 優化器狀態 × 32 (AdamW) 這個公式會因優化器不同而異,粗略估計所需的顯示卡記憶體 (VRAM,顯存) 。 以下為針對不同情境的硬體成本評估: 全量微調 (Full Fine-Tuning) 的顯存需求 在全量微調過程中,GPU 需要載入模型的全部參數。舉例來說,一個 Llama 70B(700 億參數)的緻密模型,若使用 FP16(16 位元浮點數)精度儲存,每個參數需佔用 2 個位元組,單是模型參數就需要大約 140GB 的顯存來儲存。在訓練期間,每個參數會產生對應的梯度,這又需要額外 140GB 的儲存空間。此外,常用的優化器(如 Adam)還需額外維護每個參數的一階和二階動量等資訊,通常需要相當於參數大小四倍的顯存,約 560GB。 總體顯存需求:將以上需求加總,一個 70B 模型的全量微調總共約需要 840GB 顯存。此外,還需考量到前向傳播過程中的中間結果、記憶體碎片化,以及分散式訓練時的冗...