2025年如何選擇第一台推理AI主機:家用與小企業取向

最近開始負責輔導小企業導入AI專案,把心得整理一下提供有需要的人參考。順便也幫自己打個廣告,有需要導入AI資訊科技取代傳統人力的企業,可以找我:)

文前提示:這是入門文,我不會用精確的資訊工程名詞,因為不希望讀者還要查太多其他資料。本文也經過Google GEMINI審稿,有AI味是正常的,絕對不是我想偷懶

首先是根本問題:「你為什麼需要身邊一台AI主機?」「AI主機要拿來幹什麼?」

先除去「買5090除了AI還可以打3A遊戲,爽爆!」這種答案。這種真心話千萬不要跟老婆或者董事會說,自己知道就好。

簡單地說,把反覆的工作交給AI,而需要專業和創意的部分讓人類來做。然而,有些資料你不會希望把它拿到外面去計算生成。

你也不想讓外人知道採購合約、法律條文、還有你私藏的性癖怪怪那些玩意吧?這位太太(av常見的開場

AI運算場景又可以分為訓練和推理兩個大方向。其中訓練(如果你有興趣深入瞭解,會另開一篇文章)需要強大的浮點運算能力(FP32)和並行的資料輸入,你可以想像成準備考試時拿了許多份考古題在解答的應考生。而推理則注重低延遲高吞吐的資料輸出(FP8/FP4),就像已經對課程很熟悉的教授只想最快的寫一份試題出來才能下班。

在個人和小型企業,絕大多數的場景都在推理,用人家訓練好的成果來繪圖、生文章。所以一台硬體支援低延遲高吞吐,而且能本地部署的電腦主機和LLM是你需要的。

正規來說,一台為邊緣AI應用而生的某工作站,一顆AMD Ryzen Threadripper Pro 7975WX,8根64GB ECC DIMM再加上SSD、2000W電源、網路卡再加上其他套件,然後5090是8萬台幣上下,最少一張最多無上限,也就是說總價50萬台幣起跳。

這對大多數小企業無法負擔,所以讓我們深挖。

第一章:本地AI核心與建議

好,你決定在本地安裝主機來提升員工生產力,或者生產你的DEEP♂DARK♂FANTASY瑟瑟精神食糧了!首先你要選擇大型語言模型(LLM),也就是認識AI之間的差異。

在LLM的世界中,同個模型的參數數量會寫在後面,例如8B、70B、235B這種數字,單位通常代表“Billion”。例如Llama Scout (109B)、Mixtral (8x7B)、Qwen-1.5 (235B)、DeepSeek (671B) 。一般而言,模型參數規模越大,其在未聯網狀態下的回答準確性、語意理解深度及上下文處理能力便越強 。可以視為模型「智商」的體現。

以Deepseek為例,671B的參數完整載入需要1342GB的VRAM。消費級電腦零件根本不可能堆到這種數字

所以為了降低記憶體需求,我們要在本地部屬時通常會選擇大型模型,再做量化技術(Quantization)壓縮或採用MoE(Mixture of Experts)架構,降低需求。或直接選中型一點的LLM,例如Llama-3-Taiwan-70B-Instruct。實務上,建議選檔案在100GB以內,且經過Q4量化的LLM就可以了。多了硬體太貴,少了LLM太笨,見下圖:

表格1:部分LLM模型量化與記憶體佔用分析

模型名稱總參數 (Billion)量化等級檔案大小 (GB)實際激活記憶體 (GB)
Llama Scout109Q8115N/A
Llama Scout (MoE)109Q4~5.9~3
DeepSeek671Q4405~9
Mixtral143 (8x7B)Q4N/A~16
Llama-3-Taiwan-
70B-Instruct
70Q442.5~16

第二章:記憶體頻寬:推理速度的終極審判者

當你選好LLM,你現在要關心的是速度。

LLM在推理你交付的工作時,需要不斷將模型權重從記憶體載入GPU/CPU計算。

顯存(VRAM)頻寬,是最大的AI推理速度關鍵瓶頸。對於大型LLM來說,模型參數需要高速的顯存來進行運算,而消費級顯示卡的顯存有限。在顯存不足時,主記憶體會作為模型的備用空間來傳輸資料給GPU/CPU,此時影響若模型因VRAM不足而必須完全或部分載入至主記憶體中運行就會嚴重影響效率。

自 NVIDIA RTX 40 系列之後,消費級顯卡已不再提供 NVLink 連接能力。因此,即使未來安裝多張顯卡,也必須透過主機板上的 PCI-E 匯流排進行資料傳輸。大多數電商平台能買到的消費主機板採用雙通道記憶體架構,其頻寬上限受到物理限制。一個雙通道的DDR4-3200記憶體系統,其理論頻寬約為21GB/s,而DDR5-6400也僅約64GB/s。

以Llama 3 8B 為例,若需在主記憶體中運作,其推論大約需要 19-23GB 的空間。在這種情況下,若單純以記憶體頻寬來粗略估算,以 64GB/s 除以 23GB 的模型大小,可以得出一個約為 2.78 Token/s 的數值。但請注意,這僅是極其簡化的理論值,實際效能會因其他硬體與軟體因素而有差異

這不叫能用就好,這是在浪費生命。所以有沒有折衷方案呢

有的,bro,有消費級主機能用的方案。

第三章:入門核心硬體配置與效能

策略一:你不需要開發票報帳,而且只有5萬台幣可以捏

你可以在海外平台買到所謂「洋垃圾」(指二手或退役的伺服器硬體),它們在本地AI推理時具備超高性價比。其真正的價值並非來自於老舊伺服器CPU性能多麼神奇或者INTEL怎麼這些年都在擠牙膏,而是其內建的多通道記憶體控制器與大量記憶體插槽提供替代方案。

E5 2698v3 搭4條或8條DDR4-3200記憶體,其頻寬即可達到100GB/s以上。一顆二手洋垃圾,一張來自中國神秘科技的X99 雙聯山寨板,多通道DDR4記憶體(512G),搭上RTX 3070fm魔改礦卡能壓在新台幣45K內。 DeepSeek671模型(Q4量化,激活量9GB)約6-10 tokens/s。

缺點是舊的CPU/GPU落後於時代,沒有原生的推理加速(FP8/FP4),未來優勢會不再。還有這些礦渣什麼時候壞你不知道

策略二:你需要開發票報帳,而且預算能捏到20萬

就是Mac Studio M3 Ultra,沒別的了。DeepSeek671模型(Q4量化,激活量9GB)在UMA 96GB機型實測可達18 tokens/s。

由於低延遲特性,M3 Ultra記憶體頻寬高達 819GB/s,雖然相較於 NVIDIA RTX 4090 (1,008 GB/s) 略低但實際運作相當穩定。

有發票、有保固,還只有3.64KG能一手拿。它最大的優勢在於統一記憶體架構(UMA),這是一種將 CPU、GPU 和記憶體整合在同一晶片上的設計。這不僅提供了極高的頻寬,還消除了傳統架構中資料在不同組件間傳輸的延遲,非常適合需要處理大量數據的AI工作。

類似競品還有AMD打擦邊球,推出規格看起來很像Mac Studio M3 Ultra的AI MAX+ 395。但由於主記憶體和VRAM底層還是分開的,白老鼠感很濃厚。優點是整合一體適合做成掌上遊戲機,算AI還是樣樣通樣樣鬆難以搞生產力。

其他策略:你需要開發票報帳,也有20萬可以捏,而且想買雙卡就收工

去把大型LLM降參數,然後全塞進兩張5090 跑跨卡推理。

這方法好處是所有零件都是消費級,一台便宜的消費電腦然後兩張5090裝進去,結束。RTX顯卡很保值,以後拆賣掉還能回些血。

DeepSeek70b模型(Q5KM量化),檔案大小49.9GB。得益於PCI-E gen5 x16 通道配置下的總頻寬最高可達128 GB/s,模型交換資料還算可用。根據網路測試,兩張5090各自負載2XGB,實測可達22 tokens/s。

不要5080x2,不高不低。你買兩張5070ti跑16+16,可選deepseek-r1:32b。

這就是我目前認為比較可行的搭配了。

最後總結策略:

做模型量化: 建議家用及小企業選擇經過4-bit 量化技術壓縮的LLM。這種技術能在不犧牲太多效能的前提下,大幅降低模型所需的顯存。目前常見的量化格式有 GGUF 或 GPTQ 等,它們在不同的硬體和軟體環境中有各自的優勢。

擴大記憶體頻寬: 它是決定推論速度的終極瓶頸。相較於傳統的CPU/GPU算力,本地LLM推論更受限於記憶體與處理器之間的資料傳輸速度。多通道、高頻寬的記憶體架構是提升效能的關鍵。

選擇MoE模型: 稀疏模型架構是解決本地部署挑戰的戰略性設計。其「僅激活部分參數」的特性,使其成為在有限資源下,實現超大模型流暢運行的理想選擇。但MoE並非我們而是開發者就確認好的特性,故不多說明。

留言