跳至主要内容

小型語言模型

· 閱讀時間約 3 分鐘

最近語言模型(俗稱「AI 聊天機器人」)的輕量化發展實在是太厲害了。

還記得大約去年(2024)時那些雲端上最聰明的模型(像是 GPT-4、Claude 3)嗎?這些曾經一定要依靠大科技空司的雲端才能達到的聰明程度,在今年(2025)只要一張 20-40 GB 的家用顯示卡就能達到了。

更讓人興奮的是,去年那些需要數十 GB 大模型才能做到的事情,現在只要個位數 GB 的小模型就能做到類似的效果,甚至連 GPU 都不用!

前陣子 Google 推出的 Gemma 3n 真的讓人非常驚艷。它有 E2B 和 E4B 兩個大小的版本,其中 E2B 版本只佔用 5 GB 左右的記憶體,但已經足夠聰明到可以做翻譯、重點整理、句子改寫等等的任務了。

我在我的 ThinkPad T480s 筆電上測試,這台 2018 年的老電腦,沒有獨立 GPU,只用 CPU 跑 Gemma 3n E2B,輸出速度居然可以達到每秒 9 個 token,完全是可用的速度!

當然如果輸入很長(例如貼入長文的話),它就會需要算比較久了!我嘗試輸入一個 3,500 個 token 的英文長文,要它用中文整理重點,它花了四分鐘才完成。但我還是覺得,以一台沒有獨立 GPU 的七年老電腦而言,能夠完成這任務就已經是奇蹟了。

比起那些超大型語言模型的發展,這些小型語言模型的進步更讓我興奮期待。完全離線單機運行,不管身在何處,只要開個終端機,就有超方便的 AI 助手可以用;這種「所有東西都在我手上、不用被科技公司的雲端綁住」的感覺實在太棒了!

還沒試過離線 AI 的讀者,強烈推薦你試試看系統需求超低的 Gemma 3n1

Footnotes

  1. 額外的小模型推薦:除了 Gemma 3n 之外,我最近很愛用的小模型還有:Aya Expanse 32B(雖然有點舊了,但它的中文寫作風格很不錯)、Qwen2.5(Qwen3 寫出來的文章都怪怪的,2.5 版比較好用)、Qwen2.5-VL(可以圖片辨識的模型,很厲害)、Cogito 32B(新創公司 Deep Cogito 推出的可商用模型)