DeepSeek V3 低成本及開源的推理模型挑戰者

在人工智慧快速發展的今天，中國科技公司 DeepSeek 於 2024 年底推出了其最新的開源大型語言模型——DeepSeek V3。這款模型以其卓越的性能和低成本的訓練方式，吸引了業界的廣泛關注。

Christine Lam

March 2, 2025

📍快速導覽

DeepSeek V3 的基本概念

DeepSeek 是由中國私募基金幻方量化於 2023 年創立的人工智慧公司，專注於開發高效的 AI 技術。DeepSeek V3 模型擁有驚人的 6710 億個參數，並在多項基準測試中表現優異，成為目前最強的開源 AI 模型之一。低成本高效能的技術創新 DeepSeek V3 的成功得益於其兩大關鍵技術：

混合專家架構 (MoE)

這種架構允許模型在推理時僅啟動部分參數，具體來說，每次推理僅需啟動 370 億參數，相比之下，傳統模型如 GPT-4 通常需要動用全模型參數，這樣大幅降低了運算資源需求。

多頭潛在注意力 (MLA)

該技術顯著壓縮長文本處理時的記憶體需求，減少高達 96% 的資源消耗，使得 DeepSeek V3 在推理過程中更加高效。

這些技術使得 DeepSeek V3 的訓練成本僅為約 557 萬美元，相比之下，OpenAI 的 GPT-4 訓練成本高達 6300 萬美元，顯示出其在經濟性上的優勢。

性能表現

根據基準測試結果，DeepSeek V3 在多項測試中超越了其他開源模型，如 Meta 的 Llama 3 和阿里巴巴的 Qwen2.5。在 MMLU 測試中，DeepSeek V3 獲得了 87.1% 的準確率，明顯高於 Llama 3 的 84.4% 和 Qwen2.5 的 85.0%。此外，在數學能力測試中，其表現也名列前茅，以 90.2 分位居第一。

市場影響與未來展望

DeepSeek V3 的推出不僅是技術上的突破，更可能改寫市場規則。隨著其高效能和低成本的特性，未來可能會促進更多消費性裝置（如手機和平板）上運行強大的 AI 功能，使得高端 AI 技術更加普及化。

DeepSeek V3 在市場上也面臨一些挑戰，包括對其訓練數據透明度和模型獨立性的質疑。部分觀察者指出，該模型在回答問題時自稱為 ChatGPT，引發了對其知識來源的討論。這些問題突顯了 AI 技術發展過程中透明化和規範化的重要性。

DeepSeek V3 不僅展示了中國在 AI 領域的潛力，也為未來開源模型的發展指明了方向。隨著技術的不斷進步，我們期待看到更多突破性的應用和創新。

📥 訂閱最新資訊