TL;DR:
中國AI公司DeepSeek新推出嘅R1模型成功挑戰OpenAI嘅地位,效能媲美o1。佢哋透過創新嘅技術優化,大幅降低訓練成本。雖然DeepSeek喺中國監管下要加入言論審查,但佢哋完全開源嘅做法獲得業界認可。最重要嘅係,R1證實咗強化學習係實現AI進階智能嘅關鍵路徑,為整個AI領域帶來重大啟示。
上星期,DeepSeek推出咗佢哋最新嘅模型DeepSeek-R1。呢間鮮為人知嘅中國AI公司,利用極低嘅成本訓練出嚟嘅呢個模型,效能竟然可以媲美OpenAI最先進嘅模型o1,一石激起千重浪,除咗登上各地App Store no.1,仲衝擊埋股市,甚至動搖到中美台關係。但呢幾日喺各個社交平台同新聞媒體上,我見到好多人對呢件事存好深嘅誤解。我知好多人都唔係相關背景出身,就算係都未必有時間睇哂啲paper,所以我希望用最淺白嘅方式,同大家拆解當中嘅技術概念,澄清一啲常見嘅迷思。
首先,講吓DeepSeek嘅背景。DeepSeek呢間2023年成立嘅公司喺AI界雖然屬於後起之秀,但都憑實績建立咗自己嘅名聲。佢哋推出嘅模型一向以研究技術優秀,性價比高見稱。佢哋背後嘅團隊來自一間叫「幻方量化」嘅公司。
幻方量化係一間做量化交易嘅公司。相信好多人都知道量化交易呢個領域,例如Jump Trading,two Sigma以及Jane Street呢啲公司都係運用機器學習技術嘅先驅。講到尾,其實演算法交易所用到嘅技術同依家主流嘅大型語言模型有好多共通點,兩者都係預測未來:前者係預測市場走勢,後者係預測下一個詞(token)。所以當中運用嘅技術有好多重疊嘅地方。基於呢個背景,DeepSeek背後嘅團隊喺好早期就囤積咗一堆GPU,呢個都係情理之中嘅事。
所以喺度澄清第一個誤解:
DeepSeek只係一個雞棚或者山寨版ChatGPT?
呢個諗法完全錯誤。DeepSeek嘅技術含量係貨真價實。DeepSeek備受讚譽嘅其中一個地方就係將所有研究成果完全公開、模型權重同代碼完全開源。換句話說,任何具備相關知識嘅人都可以上arxiv睇佢哋嘅論文,到HuggingFace睇佢嘅原代碼,甚至可以自己嘗試重現成果,根本冇得造假。(有位香港科技大學嘅教授就已經試咗,係成功嘅。)對比起大部分研究保密嘅OpenAI,有人諷刺DeepSeek先至係真正嘅”Open”AI。
至於經常有人發佈截圖話如果你問DeepSeek佢係邊個,佢會話自己係ChatGPT 。呢個純粹係訓練數據清理做得未夠好造成污染,唔代表佢偷咗人啲個模型嚟用,呢個問題喺不同LLM,例如Gemini上面都出現過。DeepSeek嘅訓練數據集入面用咗好多ChatGPT嘅內容。雖然使用呢啲資料去訓練自家嘅AI模型係違反OpenAI嘅Terms of Service,但我無意喺度討論訓練數據採用道德嘅問題,只能講絕大部份嘅AI公司都做緊同一樣嘢。
DeepSeek會言論審查?
另一個對DeepSeek最常見嘅「Dunk」,就係指當被問到敏感嘅話題,例如天安門事件、台灣主權問題,DeepSeek就會展露出言論審查嘅傾向,用中國式官腔回答,又或者直接拒絕回答。呢個確實係個問題,我哋可以從DeepSeek加入審查嘅兩個層面去理解:
1. 應用程式嘅層面
所有喺中國研發同上架嘅App受法規所限,都必須置入言論審查,如果你用DeepSeek官方嘅app,呢樣係無可避免嘅事。有趣嘅係,最新R1呢個模型會將佢嘅思考過程展示出嚟,所以有時都會透露出未經審查嘅內容。
2. 模型權重層面
然而即使唔用DeepSeek官方嘅app而係用佢哋嘅API,甚至使用在地化(local)嘅版本,都有機會遇到言論審查。要明白,現時主流AI模型嘅訓練過程要經過三個步驟:
一:Pre-training。耗費最多運算力嘅步驟,將大量互聯網數據放餵入模型,令模型學習知識。
二:Supervised Fine-Tuning(SFT)。用特定數據集去微調,令模型學識符合chatbot對話格式。
三:Reinforcement Learning from Human Feedback(RLHF)。再微調模型,令佢嘅輸出符合我哋期望嘅價值觀同道德規限。所有AI公司都喺呢一步去調節邊樣嘢講得、邊樣嘢唔講得,中國嘅AI公司只係在一般限制之上再加入中國特色嘅敏感話題。
不過值得一提嘅係,呢個層面嘅言論審查其實相當唔穩固,稍微調整下prompt嘅方式已經做到「jailbreak」嘅效果,要徹底解除審查亦相當容易,坊間有唔少平台已經提供去除咗審查版本嘅R1模型使用同下載。除此之外,其實DeepSeek仲上載咗幾個冇加入審查嘅模型,包括DeepSeek-R1-Zero,以及兩個R1-Distill-Llama模型。
DeepSeek只係用超低成本就開發出媲美o1嘅模型?
整個討論之中,最令人困惑嘅就係成本問題。喺各大媒體報道之中出現最頻密嘅係呢兩個數字:
僅550萬美元訓練成本
比起OpenAI便宜98%
咁呢兩個數字究竟喺邊度嚟?事實上,DeepSeek從來冇正式對外聲稱過:「我哋只係用咗550萬就同OpenAI o1打成平手」。550萬呢個數字係出自DeepSeek-V3份paper,佢哋表示用咗2.788M個H800 GPU小時,就完成咗V3嘅Pre-training。計返條數,每個H800小時要$2,乘埋就係557.6萬。
要留意嘅係,成績同OpenAI o1打成平手嘅唔係呢個上個月推出嘅V3,而係今個月20號先面世嘅R1模型。要理解V3同R1嘅關係,就要由早半年AI發展嘅趨勢講起。
喺大半年之前,大型語言模型普遍都有個問題:雖然傾偈冇乜問題,但一到處理涉及邏輯同數學嘅問題就容易出錯,最經典嘅例子就係連strawberry入面有幾多個r都數錯。
研究者對呢個問題束手無策咗好耐,有人仲認為AI永遠都冇可能有辦法建立真正嘅思考能力,話呢個會係AI發展嘅樽頸位。直到九月,OpenAI推出咗o1-preview,一個真正具備邏輯推理能力嘅模型。由於OpenAI係閉源嘅,冇人真正知道佢哋究竟點樣做到,但自此之後,所有競爭對手都開始各出奇謀,希望可以達到同樣嘅效果。
經過呢幾個月,業界得出嘅共識係:要訓練出一個有推理能力嘅模型,需要用到一種叫強化學習(reinforcement learning)嘅方法1。扼要咁講,係要首先搵一個基礎模型(base model),然後要佢就住一堆難題逐步思考,再按照佢嘅思考過程嘅質素同埋結果去獎勵或懲罰,使佢變成一個推理模型。據傳聞, OpenAI o1嘅基礎模型係GPT-4。而DeepSeek-R1嘅基礎模型就係V3。
返返去價錢嘅問題,其實單單睇DeepSeek-V3嘅訓練成本,比起同級嘅模型,的確係破天荒嘅低。但要拎嚟比嘅話,恰當嘅對手並非OpenAI嘅o1,而係Meta嘅Llama 3.1 405B。比起Meta約9000萬至1.2億嘅訓練價錢嚟講,DeepSeek只係用咗5%錢就做到更佳效果。
V3之所以價廉物美,係因為使用咗一種叫Mixture-of-Experts(MoE)嘅新架構,再加上各種近乎瘋狂嘅技術創新同優化手段,呢啲技術細節太深入,喺呢篇科普文就唔詳述啦,一切DeepSeek都有喺份paper上解釋到2。而對V3進行強化學習訓練出R1,DeepSeek使用咗一款11個月前佢哋自家研發,叫Group Relative Policy Optimization(GRPO)嘅演算法。比起傳統嘅Proximal Policy Optimization(PPO),GRPO慳咗好多算力。實際上DeepSeek冇公佈訓練R1用咗幾多錢,相信都係偏低,但估計就唔會好似Pre-training咁平過對手成95%,最多都係一半左右。
但喺網上見到好多觀點,指美國投入數千億計嘅資金,然而DeepSeek僅僅用5百萬就追過咗,呢種認知係錯誤嘅。即使承認DeepSeek喺節省成本上的確做得好出色,如果計算埋芯片、研發、採集數據、薪金等成本,DeepSeek嘅真正開支並唔會比其他AI Lab少得太誇張。值得一提嘅係,喺過去兩年,投入大量資金購買算力基本上係穩妥嘅策略,保證見效,而唔似其他大公司,DeepSeek冇來自投資者嘅盈利壓力,或者正因如此先可以花咁多時間喺較高風險嘅創新、研發同效率化上,並將呢啲知識貢獻開源社群。
至於98%又邊度嚟呢?呢個其實係指DeepSeek-R1同OpenAI o1 API價錢嘅差距。
首先要提嘅係,OpenAI呢個價錢係一個獨市生意嘅價值,喺R1出現前,除咗仲係Experimental嘅Google Gemini 2.0 Flash Thinking外,市面上根本冇第二個推理模型,可以預料喺不久嘅將來OpenAI將會減價(或者o3-mini推出後直接deprecate)。
至於點解DeepSeek做到咁平?最主要嚟自一種叫KV Cache壓縮嘅方法,以及MoE模型本身嘅部署優勢。太技術性嘅嘢同樣都唔喺度詳細講喇。
DeepSeek違反美國出口限制?
喺其他大廠全部都用到天價資金建立自己嘅GPU Cluster先有機會問鼎高峰時,DeepSeek以低成本研發出業界頂尖水平嘅模型,自然引嚟唔少質疑。有人懷疑佢哋有冇申報出嚟嘅大量算力,甚至背後有中國政府嘅國家級支緩。目前為止有三個說法:
第一個係由Scale AI嘅創辦人Alexandr Wang提出,指控DeepSeek擁有50,000被禁入口中國嘅H100芯片。呢個說法得到Elon Musk嘅留言認同,Anthropic CEO Dario Amodei亦認為雖然偷運有困難,但並非冇可能嘅事。不過如果屬實,嗰度係講緊幾十億美元嘅成本,所以個人認為可能性不大。
另一個說法就係DeepSeek的確淨係用佢哋手頭上嘅2048張NVIDIA H800訓練出V3同R1。喺V3份論文之中,DeepSeek講述過佢哋嘅優化方法,原則上只要實踐一次就知真假。根據佢哋嘅說法,H800作為H100嘅閹割版,唯一嘅差異就在於H100嘅頻寬有900GB/s,而H800只有160GB/s。因為訓練模型需要大量GPU平行運算,因此GPU之間高速傳送運算數據嘅能力係訓練效能嘅關鍵。
而面對呢個困局,DeepSeek採取咗大膽嘅方案:自行改寫GPU入面稱為Streaming Multiprocessors(SMs)嘅運算元件背後嘅指令碼,喺總數132粒SM入面,佢哋將20粒由運算用改咗嚟做傳輸。呢種改寫係喺比CUDA更低嘅PTX (Parallel Thread Execution)層級執行,需要極高嘅技術實力。DeepSeek再將GPU之間傳輸嘅數據切割做150GB嘅chunks,用持續性方式傳送,變相破解咗H800頻寬嘅限制。
第三個說法就係話DeepSeek用緊華為最新嘅910C芯片,算力可以同NVIDIA H100睇齊。
喺AI嘅世界入面,GPU最主要分做兩個需求:Pre-training(訓練模型)嘅算力需求同Inference(使用模型,例如你喺DeepSeek個app度問嘢)嘅算力需求。我嘅分析係,既然佢哋篇論文寫到咁詳細,咁自豪地向全世界揭示大費周章改良呢樣嗰樣嘅成果,DeepSeek-R1喺訓練過程應該真係淨係用咗嗰2048張H800s。但喺呢兩日全球App Store榜首嘅情況下,DeepSeek如果仲(免費地)應付到急升嘅運算需求就稍為奇怪喇,所以佢哋停咗新用戶註冊都正常。即使係Anthropic咁大間公司,都經常要限制付費用戶嘅使用量。3
DeepSeek嘅影響
上面講嘅基本上都係事實嘢。DeepSeek係實力雄厚嘅團隊,佢哋嘅模型亦貨真價實係頂尖之作。成本低廉係因為佢哋用咗好多精力時間去效率化每一個細節。以下落嚟係我個人嘅分析,take it with a grain of salt。
NVIDIA、算力、芯片
NVDA暴跌16%係市場嘅錯誤反應,我唔信效率市場假說,市場價格反映投資者嘅普遍觀點,只要比中位投資者有更多資訊分析得更好(假設機構投資者佔大多數,你要贏嘅就係機構),你就可以跑贏大市。GPU依然長期處於短缺嘅狀態,DeepSeek揭示現有GPU可以更有效率地運用,只會加速AI嘅發展而GPU需求不變甚至加劇。
Reinforcement Learning just works
DeepSeek-R1最大嘅貢獻,係證明強化學習就係通往智能嘅方程式。喺發佈R1之餘,DeepSeek仲發佈咗R1 Zero,一個完全冇經過SFT嘅版本。上面科大教授驗證DeepSeek方法學成果個例子就證明,強化學習喺再細啲嘅模型上都同樣見效。然後最前端嘅AI lab依家就可以應用DeepSeek嘅最佳化方法培訓自家嘅模型了,喺上個月OpenAI示範o3嘅時候,啲人批評指佢完成一個ARC-AGI測驗嘅task要用幾千美元嘅運算,但事實證明技術上嘅突破只會越嚟越多越嚟越快,或者採用DeepSeek嘅經驗後,完成同樣嘅task嘅成本已經下降八成。無論係OpenAI o1定DeepSeek-R1,呢啲最先進嘅推理模型開始展現自我意識(唔係指佢真係好似人類咁有意識,而係對自己處境嘅認識)、計劃以及欺騙嘅能力。隨住AI agent喺嚟緊呢兩年嘅發展,配合推理模型,AI可以遞迴地加速AI發展,世界將會變得好快。關鍵係數學、邏輯推理嘅能力可唔可以普遍化到其他能力上,呢樣嘢眾說紛紜,我覺得係順理成章嘅事。
美國推行5000億嘅AI Manhanttan Project - Stargate計劃,中國宣布投入千億美元回應,通往AGI嘅競賽開始白熱化。當OpenAI嘅安全研究員一個又一個咁離職,又表明對現況感到非常不安嘅時候,我希望AI安全有更多嘅討論空間。AI圈內有一個迷因,同時係一個迷題,叫做What did Ilya see? 典故係,Ilya Sutskever係OpenAI嘅共同創辦人同前首席科學家,喺前年11月因為對於AI安全上嘅不滿發動政變開除Sam Altman,及後Altman復職後就冇返過office,直至上年5月離職,創立Safe Superintelligence Inc。Ilya不嬲係AI界最被敬重最為有前瞻性嘅支柱,到底當時Ilya喺OpenAI睇到啲咩令佢擔心到不惜引發領導層危機要開除Altman?我覺得,早喺當時佢就見到強化學習呢條路就係一切所需,見到我哋已經站喺時間線嘅末端。4
仲有另一項好重要嘅元素叫test-time scaling,有機會再講
如果你好似我咁係學緊AI,DeepSeek呢份paper入面嘅Multi-Head Latent Attention、Multi-Token Prediction係必須要熟讀嘅嘢
所以我到依家都只用API










