DeepSeek R1豪賭“強化學習”:以3%的成本超越OpenAI
專題:DeepSeek為何能震動全球AI圈
中國AI初創公司深度求索(DeepSeek)推理大模型R1的發布在AI社區引發了沖擊波,顛覆了人們對實現尖端AI性能所需條件的假設。與OpenAI的o1相比,其成本僅為3%-5%。這種開源模式不僅吸引了開發人員,還挑戰了企業重新思考其AI戰略。
這對企業AI戰略的影響是深遠的。隨著成本的降低和開放獲取,企業現在有了像OpenAI這樣昂貴的專有模型的替代品。DeepSeek的發布可以使尖端AI功能的獲取民主化,使小型組織能夠在AI軍備競賽中有效競爭。
在一組第三方基準測試中,涵蓋從復雜問題解決,到數學和編碼的準確性方面,DeepSeek模型的表現優于Meta Llama 3.1、OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5。
微軟CEO薩蒂亞·納德拉(Satya Nadella)周三在瑞士達沃斯舉行的世界經濟論壇上表示:“看到DeepSeek的新模型,無論是他們如何真正有效地完成了一個開源模型來進行推理時間計算,還是計算效率方面,都令人印象深刻。我們應該非常認真地對待這一發展。”
目前,該模型已飆升至HuggingFace上下載量最高的熱門模型。同時,在蘋果商店美區免費榜排名第四,超越Google Gemini和Microsoft Copilot等美國生成式AI產品。
轉向純強化學習
DeepSeek-R1偏離了廣泛用于訓練大型語言模型(LLM)的傳統監督微調(SFT)過程。SFT是AI開發的標準步驟,涉及在精心策劃的數據集上訓練模型,教會它們逐步推理,通常被稱為思維鏈(CoT)。這被認為對提高推理能力至關重要。但DeepSeek通過完全跳過SFT來挑戰這一假設,轉而選擇依賴強化學習(RL)來訓練模型。
這一大膽舉措迫使DeepSeek-R1開發獨立的推理能力,避免了規范性數據集經常引入的脆弱性。雖然出現了一些缺陷,并導致團隊在構建模型的最后階段重新引入了有限數量的SFT,但結果證實了根本性的突破:僅強化學習就可以帶來顯著的性能提升。
微軟AI前沿研究實驗室的首席研究員Dimitris Papailiopoulos稱,R1最讓人驚訝的是它的工程簡單性。他說:“DeepSeek旨在獲得準確的答案,而不是詳細說明每個邏輯步驟,從而在保持高水平效率的同時顯著減少計算時間。”
埃默里大學(Emory University)信息系統助理教授Hancheng Cao表示:“這可能是一個真正的均衡突破,對資源有限的研究人員和開發人員來說是件好事,尤其是來自南半球的研究人員。”
得益于開源
DeepSeek在很大程度上使用了開源。DeepSeek最初為其專有聊天機器人開發AI模型,然后將其發布供公眾使用。人們對該公司的確切方法知之甚少,但它很快將其模型開源。
為了訓練其模型,DeepSeek購買了10000多塊英偉達GPU,隨后又擴大到50000塊。與OpenAI、谷歌和Anthropic等領先的AI實驗室相比,這明顯相形見絀,因為這些實驗室每個都有超過50萬塊GPU。
社交平臺X的用戶Silver Spook稱:“感謝中國公司Deepseek,他們開發的DeepSeek-R1證明,生成式AI是一個被資本家夸大的巨大騙局,其實際價值不到550萬美元。”(注:英偉達工程師Jim Fan稱,DeepSeek在兩個月內以558萬美元的預算訓練了其基礎模型V3。)
DeepSeek以有限的資源實現有競爭力的結果的能力,突顯了獨創性和足智多謀。此外,DeepSeek從一開始就非常具有創新性。引入了專家混合系統(MoE)和多頭潛在注意力(MhLA)。
DeepSeek-R1之所以帶來如此多的驚喜,是因為開源模型背后有著巨大的邏輯和動力。它們的免費成本和延展性是此類模型將在企業中獲勝的原因。
對于企業決策者來說,DeepSeek的成功突顯了AI領域更廣泛的轉變:更精簡、更高效的開發實踐越來越可行。一些組織可能需要重新評估與專有AI提供商的合作關系。
Meta首席AI科學家Yann LeCun稱,DeepSeek的成功突顯了保持AI模型開源的價值,這樣任何人都可以從中受益。這表明開源模式正在超越專有模式。LeCun說:“他們提出了新的想法,并將其建立在其他人的工作之上。因為他們的工作是公開和開源的,每個人都可以從中獲利。這就是開放研究和開源的力量。”
社交平臺X的用戶Niels Rogge稱:“有一家名為DeepSeek的中國公司,它基本上做了OpenAI最初打算做的事情。他們開源了一個經過大規模強化學習訓練的模型,擊敗了其他所有人,甚至還發表了一篇詳細介紹其過程的論文。”
消費者受益
雖然DeepSeek的創新是突破性的,但它絕不是建立了絕對的市場領先地位。因為它發表了研究成果,其他模型公司將從中學習并適應。Meta和法國開源示范公司Mistral可能會落后,但他們可能只需要幾個月的時間就能趕上。
最終,消費者、初創公司和其他用戶將贏得最大的勝利,因為DeepSeek的產品將繼續將使用這些模型的價格推到接近零的水平。這種快速的商品化可能會給在專有基礎設施上投入巨資的領先AI提供商帶來挑戰,甚至是巨大的痛苦。
社交平臺X的用戶Shubham Saboo稱:“DeepSeek R1 100%開源,比OpenAI o1便宜96.4%,同時提供類似的性能。OpenAI o1每1M輸出Token為60美元,而DeepSeek R1每1M輸出Token為2.19 美元。擁有200美元ChatGPT訂閱的人,請仔細考慮一下。”
正如許多評論家所說,包括Meta的投資者兼前高管Chamath Palihapitiya,這可能意味著OpenAI和其他公司多年的運營支出和資本支出將被浪費。
OpenAI投資回報問題
這一切都引發了人們對OpenAI、微軟和其他公司所追求的投資計劃的重大質疑。
OpenAI耗資5000億美元的Stargate項目反映了其建設大型數據中心以支持其先進模型的承諾。在甲骨文和軟銀等合作伙伴的支持下,這一戰略的前提是,實現通用人工智能(AGI)需要前所未有的計算資源。
然而,DeepSeek以極低的成本展示了一種高性能模型,這對這種方法的可持續性提出了挑戰,引發了人們對OpenAI為如此巨大的投資帶來回報的能力的懷疑。
企業家兼評論員Arnaud Bertrand捕捉到了這種動態,將DeepSeek節儉、分散的創新,與OpenAI等其他開發商對集中、資源密集型基礎設施的依賴,進行了對比。
Bertrand稱,世界意識到以DeepSeek為代表的開發商在技術和創新方面已經趕上了OpenAI等傳統開發商,在某些領域甚至超過了他們。
位于多倫多的技術顧問Reuven Cohen自12月下旬以來一直在使用DeepSeek-V3。他說,它可以與OpenAI、谷歌和舊金山初創公司Anthropic的最新系統相媲美,而且使用起來要便宜得多。
Cohen說:“DeepSeek是我省錢的一種方式。這是像我這樣的人想要使用的技術。”
轉載原創文章請注明,轉載自山東天桓計量檢測有限公司,原文地址:http://www.coderstalk.cn/post/36235.html