在去年12月,由國內大模型公司“深度求索”開發(fā)的DeepSeek應用推出的DeepSeek-V3在全球AI領域掀起巨大波瀾,它以極低的訓練成本,實現(xiàn)了與GPT-4o等頂尖模型相媲美的性能。時隔不到一個月,DeepSeek又一次震動全球AI圈。
1月27日,隨著DeepSeek推出新模型DeepSeek-R1,Deepseek應用登頂蘋果中國地區(qū)和美國地區(qū)應用商店免費App下載排行榜,在美區(qū)下載榜上超越了ChatGPT。
北京時間今日(28)凌晨,DeepSeek又發(fā)大招,宣布開源全新的視覺多模態(tài)模型Janus-Pro-7B。Janus的表現(xiàn)超越了傳統(tǒng)的統(tǒng)一模型,有望成為下一代統(tǒng)一多模態(tài)模型的有力競爭者。
那么,DeepSeek究竟好在哪?為什么能以較低的成本取得“大力出奇跡”的效果?
DeepSeek:性能卓越,用戶體驗佳
DeepSeek是一款由國內人工智能公司研發(fā)的大型語言模型,簡單來說,它就像是一個聰明又懂你的助手。它擁有強大的自然語言處理能力,能夠理解并回答你的問題,就像你和朋友聊天一樣自然流暢。
而且,DeepSeek不僅能聊天,還能幫你寫代碼、整理資料,甚至能幫你解決一些復雜的數(shù)學問題。它背后有著復雜的算法和大量的數(shù)據(jù)支持,就像是一個經(jīng)驗豐富的偵探,能從海量信息中挖掘出你想要的東西。
關于類似的大模型,最廣為人知的可能是OpenAI開發(fā)的ChatGPT。從2024年9月OpenAI發(fā)布o1-preview到現(xiàn)在,僅過去不到四個月,市場上媲美甚至超越其性能的推理模型就已遍地開花。
DeepSeek之所以可以從這眾多的模型之中異軍突起,是因為它不僅率先實現(xiàn)了媲美OpenAI-o1模型的效果,更是將推理模型的成本壓縮到了極低。
這次DeepSeek推出的新模型DeepSeek-R1延續(xù)了其高性價比的優(yōu)勢,僅用十分之一的成本就達到了GPT-o1級別的表現(xiàn)。
“從大力出奇跡到小力出奇跡”
DeepSeek做了什么算法改進?
DeepSeek模型發(fā)布后,瞬間引發(fā)了海外AI圈眾多科技大佬的討論。
當?shù)貢r間1月27日,受DeepSeek沖擊,美國人工智能主題股票遭拋售,美國芯片巨頭英偉達(NVIDIA)股價歷史性暴跌,納斯達克綜合指數(shù)大幅下跌。
英偉達高級研究科學家Jim Fan在個人社交平臺上公開發(fā)表推文表示,“我們正身處這樣一個歷史時刻:一家非美國公司正在延續(xù)OpenAI最初的使命——通過真正開放的前沿研究賦能全人類?此撇缓铣@,但最有趣的結局往往最可能成真。”
DeepSeek持續(xù)引發(fā)業(yè)內震動,臉書母公司Meta已成立專門小組展開研究和學習。
北京郵電大學人工智能學院人機交互與認知工程實驗室主任劉偉介紹,DeepSeek最大的優(yōu)勢在于它算法的改進和優(yōu)化,它在算力上得到了節(jié)省,在輸入數(shù)據(jù)和語料庫上,不像以前要求那么大的數(shù)據(jù)量和大的算力,這是它的優(yōu)勢。以前如果說OpenAI是“大力出奇跡”,那么DeepSeek就是“小力也可以出奇跡”——小的算力用新的方法也可以出奇跡。
在南京大學人工智能學院教授俞揚看來,DeepSeek站在前人的基礎上,在算法上進行了相應的優(yōu)化,使得訓練成本得到大幅降低。
俞揚表示,OpenAI最初在做ChatGPT的時候,使用了需要使用大量機器的強化學習技術,但后來的研究者們發(fā)現(xiàn),可以針對語言模型設計出更簡單的算法,這樣訓練強化學習時大概可節(jié)省3/4的機器。
在DeepSeek的公布的技術方案中,它的強化學習也使用了這種簡化方案,這就使得技術上有很多可改進的地方。
開源是否是未來的發(fā)展方向?
此外,值得關注的是,DeepSeek采用了完全開源策略。
曾經(jīng)OpenAI創(chuàng)立的初衷,也是作為一家非營利組織,希望“以最有可能造福全人類的方式推進數(shù)字智能發(fā)展,而不受產(chǎn)生財務回報需求的限制”。然而,OpenAI在GPT-3發(fā)布之后限制了對模型的訪問權限,僅通過API提供服務,在GPT-4發(fā)布之后更是隱藏了其訓練數(shù)據(jù)和模型權重、完全走向了“閉源”。
DeepSeek的完全開源策略不僅降低了用戶的使用門檻,還促進了AI開發(fā)者社區(qū)的協(xié)作生態(tài)。通過開源,DeepSeek吸引了大量開發(fā)者和研究人員的關注,他們可以在GitHub等平臺上自由獲取和修改模型代碼,共同推動AI技術的發(fā)展。
英偉達AI科學家Jim Fan稱贊DeepSeek是“真正開放的前沿研究,賦能所有人”。
國內的某大模型創(chuàng)業(yè)企業(yè)的CEO陳里奧告訴記者,開源的好處是顯而易見的。這種開放式的創(chuàng)新模式可以激發(fā)更多的創(chuàng)意和靈感,推動AI技術的不斷進步。
陳里奧表示,大模型目前還是屬于技術早期,目前在生文、生圖上做得多一些。高精準的邏輯計算、數(shù)學、編程類工作,還沒有完全在大模型層面完成。但也正是因為處在技術早期,大家一起貢獻才能讓行業(yè)發(fā)展得更快。
當然,開源也面臨著一些挑戰(zhàn)和問題。例如,如何保護知識產(chǎn)權、如何維護開源社區(qū)的秩序和穩(wěn)定等。
俞揚表示,實際上開源只是一種商業(yè)模式,即使是開源的東西也是有版權的,所以所謂的開源和閉源之爭,更多是商業(yè)模式之間的問題——哪一種商業(yè)模式可能在這種特定的場景、特定的時代中更有效一些。
有人把DeepSeek的成功歸功于這是一個關于中國技術理想主義的故事,也有不少外國人將之比喻為“神秘的東方力量”。但放在整個AI大模型的產(chǎn)業(yè)里看,或許DeepSeek的成功代表了大模型的一種全新發(fā)展方向。
劉偉表示,現(xiàn)在大模型的發(fā)展正在發(fā)生一些變化,這個變化是關于它是否完全根據(jù)算力的大小來判定模型的好壞。現(xiàn)在DeepSeek給大家一個啟示——雖然DeepSeek算力不高,數(shù)據(jù)可能也不是很多,但通過算法的優(yōu)化可以做得更好。
▌本文來源:中央廣電總臺中國之聲(ID:zgzs001)
記者/馮爍