2025年1月,中國新創公司DeepSeek發布據稱以超低成本打造、性能媲美OpenAI o1閉源模型的DeepSeek-R1,且為開源模型,在AI科技圈無預警投下一枚超級震撼彈,儘管後續產生資安、抄襲及成本虛報等爭議,但仍掩蓋不了DeepSeek對人工智慧產業發展的影響力。究竟DeepSeek憑什麼在AI產業颳起如此風暴?
來自中國的DeepSeek是何方神聖?
DeepSeek(深度求索)為中國一家AI新創公司,總部位於杭州,於2024年底及2025年年初先後推出2款大型語言模型:DeepSeek-V3 和 DeepSeek-R1,並以和ChatGPT相近的聊天機器人模式提供免費服務,儘管目前僅能處理文字任務,但這2個開源模型發布後震撼各界,因其在性能方面號稱媲美甚至超越OpenAI當時最新模型GPT-4o與o1,但訓練成本僅為OpenAI的3至5%,約560萬美元 。
若所言屬實,那就代表著在AI研發上其實無需天價訓練成本,也可以開發出高性能、高效益的AI機器人,且部署DeepSeek AI所需的運算資源也較少,讓AI應用得以更輕易普及化。


驚人的低成本高效率 DeepSeek如何辦到?
DeepSeek以低成本、高效率、開源技術3大核心特色吸引了全球開發者與企業關注,其開發團隊致力於減少不必要的運算資源消耗,以最少的運算量達成與其他大型AI模型相近的效能。而能夠達成如此「壯舉」的背後,不得不提到3大核心技術:
- 多頭潛在注意力架構(MLA):
DeepSeek-V3採用多頭潛在注意力(Multi-Head Latent Attention)架構,能有效減少每次查詢所需的 KV 快取(KV Cache),減少推理過程的運算資源消耗。根據AI產業研究公司Semianalysis指出,MLA架構降低了93.3%的KV快取需求,讓DeepSeek模型在相同運算資源下得以降低更多推理成本,甚至可能無需仰賴高階GPU。
- 混合專家模型(MoE):
DeepSeek-V3於訓練過程中採用混合專家模型(Mixture of Experts)架構,這是與傳統大型語言模型不同的設計與訓練方式,模型會透過門控機制(Gating Network)從整個大模型中選擇啟動適合的專家子網路,提高計算效率、減少非必要的運算資源,讓推理過程更高效。
- 多Token預測(MTP):
DeepSeek也在AI模型訓練中導入多標記預測(Multi-Token Prediction),讓AI在訓練時同時預測多個Token,而非一次僅預測一個Token,大幅提高訓練效率,讓DeepSeek能在短時間內達到與GPT-4o相近性能,同時降低GPU運算需求與能源消耗。
DeepSeek-R1、V3有什麼差異?
2024年12月26日,DeepSeek宣布開源 DeepSeek-V3 系列模型,實現高效推理和低成本訓練。 2025年1月20日,DeepSeek再發布深度推理模型 DeepSeek-R1,通過大規模強化學習技術顯著提升推理能力,更號稱其性能媲美頂尖閉源產品。這2大模型主要差異如下:
DeepSeek-V3 | DeepSeek-R1 | |
模型架構與設計 | MoE架構,擁有6710億參數,每次推理時僅啟動部分參數,降低運算成本 | 全密集(Dense)架構,即所有參數在推理時都會啟用,適合深度推理 |
訓練數據與技術 | 使用14.8兆Token的高質量數據進行預訓練,致力於自然語言理解與生成能力 | 以V3為本,進一步通過大規模「從人類反饋中強化學習」(RLHF)幫助,使其更加擅長推理與邏輯推導 |
訓練成本效益 | 採FP8 混合精度訓練,大幅減少記憶體需求並提高計算吞吐量 | 預訓練需消耗更多用在強化學習上的 GPU 小時數 |
主要應用場景 | 適用各種通用NLP任務,如文本理解、生成、翻譯、代碼輔助、數學推理等 | 適合需要更強邏輯推理能力的任務,如學術研究、專業問答、決策輔助等 |
整體性能表現 | 擅長數學和多語言任務 | 在需要邏輯思維的基準測試中表現異常出色 |
DeepSeek的爭議與風險
作為AI界的新秀,DeepSeek亮眼的表現成功獲取全球關注,但在光鮮亮麗的外表下,其背後也被人點出不少爭議與風險,至今依然爭論不休,各界焦點主要落在以下面向:
- 研發過程疑竊取OpenAI數據
- 內容審查機制與數據資安議題
- 令人驚豔的低成本是真或是假?
站在巨人的肩膀上往前走?DeepSeek遭控抄襲、技術竊取
在DeepSeek撼動科技圈的同時,各界對於這家中國新興AI公司能在如此短時間內達到如此成就也少不了質疑。作為被比較對象的OpenAI就指控DeepSeek可能透過API非法獲取大量數據,並使用「知識蒸餾 」(distillation)技術從ChatGPT等模型中提取資訊,用來開發自己的AI模型。
儘管知識蒸餾本身是一種合法的機器學習方法,但如果企業是透過未經授權的API查詢、逆向工程或爬取受保護的數據來進行,就可能涉及技術竊取。DeepSeek事件也加劇了美國對中國在AI領域技術竊取的擔憂 。
中國製造背後的言論自由限制與資安疑慮
中國政府對於言論自由及思想管控的程度眾所皆知,作為中國AI公司,DeepSeek在敏感議題的回應上,顯而易見地會以中國政府立場為主,或乾脆拒絕回答。其自我審查機制可能引發以下狀況:
- 屏蔽特定議題(如台獨、天安門事件等)
- 對不同使用者群體提供不同資訊以影響輿論
- 潛移默化的認知作戰,像是提供特定敘事的AI內容等
多國政府與業界人士也難以排除DeepSeek可能是中國政府推動認知戰的一部分,恐用於影響全球輿論或操控資訊。
且中國法規並要求企業在中國運行時,需將數據存在境內並可能受到政府審查。作為中國公司,DeepSeek亦須「守法」,這意味著使用DeepSeek的企業、政府機密和個人數據極有可能被中國政府存取,進一步引發國家安全風險及潛在數據監控等疑慮。

遠低於OpenAI的開發成本、僅用H800晶片是騙局?
DeepSeek成為市場焦點的關鍵在於其對外宣稱的超低成本,僅需不到600萬美元、以輝達相對低階的H800晶片就能開發出高效推理模型。但真的有這麼輕鬆嗎?截至2月中旬,已有多個分析報導指出DeepSeek可能存在低報成本的問題,包含計算資源需求、訓練成本、技術來源和隱性成本等。
美國Scale AI執行長更指稱DeepSeek其實擁有約5萬顆輝達高階H100晶片,這正是美國AI產業主流晶片,但DeepSeek並未公開,因為這違反了美國出口禁令。而全球投資研究公司Bernstein的分析報告則認為,DeepSeek並未公開完整財務資料,低報成本可能是為了吸引更多資金支持或擴大市占率。
至今仍無人能完全確認DeepSeek的實際成本到底是否如其公開所述一般「物美價廉」。


DeepSeek來勢洶洶 各國反應如何
中國AI DeepSeek在全球引發熱議,但其數據存取及隱私議題也同時引發多項爭議,特別是在資安方面,目前已有多個國家宣布禁用或限制使用DeepSeek,主要是針對政府部門,包括台灣、美國、義大利、澳洲、韓國、印度等,都有相關的禁令或是限用措施。
台美澳義韓等國DeepSeek禁令一次看
- 台灣:行政院日前宣布禁止政府部門及關鍵基礎設施使用DeepSeek,主要考量點是其恐危害國家資通安全。
- 澳洲:澳洲內政部在進行風險評估後,認為DeepSeek務對政府構成「不可接受的安全風險」,要求各政府機關識別並移除系統與裝置內的DeepSeek產品與服務。
- 美國:美國國防部、五角大廈等多個政府機構禁止在政府設備上使用DeepSeek,德州、紐約州等州政府也宣布禁止政府員工使用;目前美國國會研擬進一步立法,計劃將禁令擴大至所有聯邦機構。
- 義大利:義大利個資保護局已緊急限制DeepSeek處理義大利使用者個資,因此在義大利不光是政府部門,就連普通用戶也有所限制;目前DeepSeek暫時在義大利的Apple和Google應用商店下架。
- 韓國:包含國防部、外交部等多個公部門及警察廳已禁止軍用和公務電腦使用。此外,國營企業與科技巨頭也開始跟進,對DeepSeek採取限制措施。
- 印度:印度財政部近日發布內部公告,要求所有員工禁止使用ChatGPT、DeepSeek等AI工具,以防政府機密資料外洩。
DeepSeek的崛起引發全球對人工智慧安全和數據隱私的擔憂。多國政府先後頒布的禁令以及安全專家的警告,凸顯了在追求技術發展的同時,也應重視資訊安全保障與防範潛在風險的重要性。
DeepSeek vs. OpenAI 誰才是AI產業最終贏家?
DeepSeek的橫空問世,讓AI巨擘OpenAI一度被認為彷彿「輸了」這場AI之戰。不過在最初的震撼過後,不同的觀點與分析陸續出現,DeepSeek的開源、低成本技術操作確實影響了未來人工智慧發展,但這卻也不代表OpenAI等先驅者的高成本投入、閉源技術是失敗的選擇。
開源、閉源模型是什麼意思?
目前各家生成式AI產品可概分為閉源、開源兩大模型,對於一般民眾或許感受不深,但對於開發者來說,開源或閉源影響著企業成本、AI可調整程度等許多面向,兩者基礎定義如下:
- 開源模型:指其架構、參數、訓練方法,甚至權重都公開,允許開發者自由下載、修改、微調或重新部署。
- 閉源模型:指公司或機構不對外公開模型細節,僅提供API或應用服務,開發者無法獲取完整權重與訓練數據。
兩者主要差異概覽:
開源模型 | 閉源模型 | |
可獲取性 | 可自由下載、修改、微調 | 只能透過API或雲端服務使用 |
透明度 | 完全開放,包含架構與權重等 | 架構與數據不透明,無法檢視細節 |
可訂製性 | 可依需求微調 | 無法修改,僅能調整API參數 |
安全性 | 可審查代碼與數據,減少黑箱風險 | 由研發企業控制,安全性難審查 |
計算成本 | 需自建基礎設施以運行 | 由企業提供計算資源,按使用量付費 |
維護與更新 | 社群或企業自行更新 | 研發企業負責持續維護與升級 |
目前代表模型 | Llama 2、Mistral 7B、DeepSeek-V3 | GPT-4、Claude 2、Gemini 1.5 |
開源與閉源模型各有優勢,使用者要選擇哪一種則要取決於成本、隱私、靈活性等需求,也代表兩者各有其市場。OpenAI象徵著「高成本、高創新、高門檻」技術流,從無到有打造出強大的AI 模型,至於DeepSeek則走「低成本、開源、快速商業化」路線,透過開源優化技術大幅促進AI普及度,這都並非能以誰輸誰贏來二元論斷。
Deepseek與ChatGPT差多少?商業應用怎麼選?
儘管DeepSeek和ChatGPT都屬於大型語言模型(LLM),但兩者在技術架構、開放性、應用場景等方面依然存在著差異。
Deepseek(V3) | ChatGPT(GPT-4) | |
開發公司 | DeepSeek(幻方量化支持) | OpenAI |
模型架構 | MoE + Dense | Dense |
參數規模 | 最大 671B(MoE) | 未公開,估計1T以上 |
是否開源 | 開源 | 完全閉源 |
多模態 | 未支援,僅提供文字處理 | 支援,包含文字處理及圖像生成等 |
主要優勢 | 更開放、訓練效率高、成本較低 | 商業化成熟、泛用性更強、推理能力更高 |
語言與數據訓練 | 為原生中文AI,採開源數據,針對亞洲市場加強優化 | 在英語與多語言理解能力較強,訓練數據更廣泛 |
核心技術 | MoE + FP8 訓練 | Transformer Dense |
計算效率 | 更高效 | 較高成本 |
免費模式 | 提供開源版本 | 不提供開發者免費使用 |
付費模式 | API 計費 + 自部署(硬體成本) | API 計費 + ChatGPT Plus 訂閱 |
企業適用性 | 適合內部部署 + 私有化 AI | 適合 SaaS 應用 + AI 產品開發 |
市場定位 | 亞洲華語市場為主,開源策略吸引開發者 | 全球市場先驅,與 Microsoft、企業 IT深度整合 |
相關爭議 | 自我審查、資安疑慮、遭質疑低報開發成本及竊取OpenAI技術等 | 疑涉侵權、企業透明度持續下降等 |
對企業來說,兩者具有各自特點,該如何選擇使用應視自身目標而定。在商業應用與成本方面大概可概括如下:
- DeepSeek適合企業內部AI部署,長期成本較低,但需要GPU設備。
- ChatGPT適合API產品化,商業化相對成熟,開發者可快速上線AI服務,但長期API成本較高。
Deepseek誘發「鯰魚效應」 加速AI人工智慧新陳代謝
DeepSeek-V3、R1開源模型撼動人工智慧產業,大幅拓寬AI民主化之路,似乎也讓在閉源領深耕多時的AI龍頭們心中警鐘大響。
Google於1月發布 Gemini 2.0 Flash後,2月6日又迅速推出3種新模型;無獨有偶,OpenAI也在DeepSeek問世後不久,於1月31日火速推出GPT-o3-mini,2月2日更發表新的Deep Research功能,兩者皆在綜合性難題測試「人類最終考驗」(Humanity’s Last Exam)中表現大幅超越DeepSeek-R1。

可預期在多角競逐下,接下來的AI領域不論開源或是閉源,更迭速度只會更快。閉源、開源應被視為共存的AI發展線,各有利弊也互相競逐,激發出AI人工智慧的無限可能與前景。面對Deepseek異軍突起,傳統閉源模型霸權們該如何因應具備高性能的開源模型所帶來的挑戰,將是後續一大看點。
DeepSeek的誕生確實顛覆了市場對AI發展的認知,成功挑戰了OpenAI、Google 等傳統AI霸權,讓AI技術更加「民主化」。這份技術創新帶來的效應值得關注,不論民眾、企業、開發者都應抱持開放式態度持續觀察,在風雲詭譎的AI戰局中找到最有利的應用趨勢。
生成式AI正不斷推動著創新的界限,無論是在內容生成、摘要提取還是程式撰寫等方面都展現了強大潛力。如果你想深入了解這一領域的發展,歡迎持續關注愛酷智能科技,和我們一同探索AI的旅程。