2025年如何估計大語言模型微調與訓練的硬體成本

評估大語言模型(Large Language Model, LLM)微調和訓練所需的硬體成本,是一個常見且重要的問題。在實際專案中,演算法能否成功運作是一回事,能否在預算內運作則是另一回事。


硬體成本往往是決定專案能否順利推動的關鍵因素,因此評估硬體成本是資訊專案管理者的日常工作之一。也反映出你對於大型模型工程化部署的整體掌握能力。這類問題不同於單純的演算法,它能直接顯示你對模型訓練工程體系的理解深度。

喔對了,這是上一篇「推理篇」(如果你有興趣參考,會另開視窗)的續集沒錯,但沒有「家用」標題了。LLM微調與訓練不是家用消費主機能做的。

對於緻密模型 (Dense Model) 的硬體成本評估

緻密模型 (Dense Model) 指的是在推論或訓練時,每次都會載入所有參數的模型。舉例來說,一個參數為 80 億的Llama 8B 模型,就是一個緻密模型,每次訓練或推論都會帶入全部的 80 億個參數。
對於這種架構的模型,若採用全量微調(Full Fine-Tuning),由於每一步計算都會啟動所有參數,硬體成本的評估邏輯相對直接。以一個 22B 的緻密模型為例,在全量微調(Full Fine-Tuning)時,通常會用到 16-bit 浮點數(FP16),所需的 VRAM 大致是: 參數數 × 16 (FP16) + 梯度 × 16 (FP16) + 優化器狀態 × 32 (AdamW) 這個公式會因優化器不同而異,粗略估計所需的顯示卡記憶體 (VRAM,顯存) 。

以下為針對不同情境的硬體成本評估:

全量微調 (Full Fine-Tuning) 的顯存需求

在全量微調過程中,GPU 需要載入模型的全部參數。舉例來說,一個 Llama 70B(700 億參數)的緻密模型,若使用 FP16(16 位元浮點數)精度儲存,每個參數需佔用 2 個位元組,單是模型參數就需要大約 140GB 的顯存來儲存。在訓練期間,每個參數會產生對應的梯度,這又需要額外 140GB 的儲存空間。此外,常用的優化器(如 Adam)還需額外維護每個參數的一階和二階動量等資訊,通常需要相當於參數大小四倍的顯存,約 560GB。

總體顯存需求:將以上需求加總,一個 70B 模型的全量微調總共約需要 840GB 顯存。此外,還需考量到前向傳播過程中的中間結果、記憶體碎片化,以及分散式訓練時的冗餘開銷 。因此,實際需求往往需要 1TB 或更多的顯存 。

從現實觀點來看,這個顯存量對沒有建算力中心的一般企業根本不可能

參數規模較小的緻密模型

因此可行的策略一,是選用更小的模型。
對於參數較小的緻密模型,顯存需求可按近似線性比例估算。例如,一個 13B 參數的模型,其參數量大約是 70B 模型的五分之一,因此整體全量微調可能在 200GB 顯存內完成。

量化模型 (Quantized Model)

可行的策略二,是將大模型量化。
如果降低模型的儲存精度,例如採用 8-bit 或 4-bit 量化儲存,顯存佔用會近似按照位元寬度縮減 。以 70B 模型為例,若使用 8-bit 儲存,參數部分約需 70GB ;若使用 4-bit 儲存,則約需 35GB 。然而,需要注意的是,梯度和優化器通常仍會以 FP16 的形式儲存,因此總體顯存縮減幅度有限。

高效微調 (Efficient Fine-Tuning)

可行的策略三,是使用 LoRA (Low-Rank Adaptation) 等高效微調方法,顯存佔用會顯著降低。這是因為 LoRA 只需在部分矩陣中引入低秩轉接器,訓練時僅需更新這些新參數,而原始大型模型的參數則保持凍結。例如,對 70B 模型應用 LoRA,實際需要更新的參數量可能只佔總參數的 1% 到 2%,因此顯存需求通常可控制在 160GB 左右。

MOE (Mixture of Experts) 模型架構的硬體成本評估

現代MOE模型如Qwen3-235B-A22B 的推理硬體成本,僅等同於一個 22B 的緻密模型。但進行全量微調時,其成本是基於總參數(235B) 來計算的。這是因為在訓練時需要處理所有專家的參數和梯度。這將會需要極高的 VRAM,因此在經濟上是不切實際的。

因此,最可行的方式是進行高效微調(如 LoRA),這樣 VRAM 需求會大幅降低,通常只需要佔用 20-30 GB 的顯存。

硬體成本評估的其他考量

除了顯卡顯存之外,在評估硬體成本時,還需考量其他隱性成本,例如:
  • 電力與散熱:大型模型訓練會消耗大量電力並產生高熱,需要充足的電力供應與有效的散熱系統。
  • 機房空間:大量的伺服器和硬體設備需要足夠的機房空間來容納。
  • 叢集維護與人員成本:管理和維護硬體叢集需要專業的人力,這也是一項重要的成本。
  • 分散式通訊開銷:在分散式訓練中,多個顯卡之間需要高速通訊,這也會產生額外的開銷。
這些隱性成本經常被忽略,但卻對整體預算有顯著影響 。
如果預算有限,應優先保障顯存容量和頻寬,以確保模型能夠正常載入並高效運作 。其次再考慮顯卡數量。對於小模型來說,通常單張大顯存的顯卡會比多張小顯存的顯卡更有效率,但價格也更高 。

留言