小型語言模型

2025年7月17日 · 閱讀時間約 3 分鐘

最近語言模型（俗稱「AI 聊天機器人」）的輕量化發展實在是太厲害了。

還記得大約去年（2024）時那些雲端上最聰明的模型（像是 GPT-4、Claude 3）嗎？這些曾經一定要依靠大科技空司的雲端才能達到的聰明程度，在今年（2025）只要一張 20-40 GB 的家用顯示卡就能達到了。

更讓人興奮的是，去年那些需要數十 GB 大模型才能做到的事情，現在只要個位數 GB 的小模型就能做到類似的效果，甚至連 GPU 都不用！

前陣子 Google 推出的 Gemma 3n 真的讓人非常驚艷。它有 E2B 和 E4B 兩個大小的版本，其中 E2B 版本只佔用 5 GB 左右的記憶體，但已經足夠聰明到可以做翻譯、重點整理、句子改寫等等的任務了。

我在我的 ThinkPad T480s 筆電上測試，這台 2018 年的老電腦，沒有獨立 GPU，只用 CPU 跑 Gemma 3n E2B，輸出速度居然可以達到每秒 9 個 token，完全是可用的速度！

當然如果輸入很長（例如貼入長文的話），它就會需要算比較久了！我嘗試輸入一個 3,500 個 token 的英文長文，要它用中文整理重點，它花了四分鐘才完成。但我還是覺得，以一台沒有獨立 GPU 的七年老電腦而言，能夠完成這任務就已經是奇蹟了。

比起那些超大型語言模型的發展，這些小型語言模型的進步更讓我興奮期待。完全離線單機運行，不管身在何處，只要開個終端機，就有超方便的 AI 助手可以用；這種「所有東西都在我手上、不用被科技公司的雲端綁住」的感覺實在太棒了！

還沒試過離線 AI 的讀者，強烈推薦你試試看系統需求超低的 Gemma 3n¹！

額外的小模型推薦：除了 Gemma 3n 之外，我最近很愛用的小模型還有：Aya Expanse 32B（雖然有點舊了，但它的中文寫作風格很不錯）、Qwen2.5（Qwen3 寫出來的文章都怪怪的，2.5 版比較好用）、Qwen2.5-VL（可以圖片辨識的模型，很厲害）、Cogito 32B（新創公司 Deep Cogito 推出的可商用模型） ↩

Footnotes​