智合創新: AIaaE-開源LLMs生態系的崛起 - EPISODE 0

EPISODE 0 - DEEPSEEK 的衝擊

2025.01.31 汪周禮

在 AI 技術的快速演進下，AI整體市場格局正在發生重大變化。從開源與閉源的競爭，到小模型挑戰大模型，再到算力需求的變革，這些趨勢不僅影響技術發展，也將重塑全球 AI 產業格局。

DeepSeek的出現所造成的影響意義深遠，本文嘗試從四個點切入探討未來 AI 市場可能的變化及其對企業的影響。

(針對近期DEEPSEEK對市場網路新聞資訊變化，整理收集網路資訊並與ChatGPT對話整理與修改及補充後，探討目前觀察到的資訊，經過整理補充與修改的內容仍可能有誤，請謹慎閱讀參考。)

1. DeepSeek 綜合資訊

2. DeepSeek-V3 訓練與優化流程總覽

3. 未來市場的變化趨勢

4. 哪些企業會最先適應 DeepSeek 帶來的 AI 變局？

關鍵字：DEEPSEEK, AI, AI黃金三角, AI FUTURE TREND, AIaaE, AI as an Ecosystem, open source, LLM

1. DeepSeek 綜合資訊

DEEPSEEK是一種AI LLM技術，於2025年1月20日首度發表。

從目前收集到的資訊經過整理後，首先從類型、特色以及重點摘要三個層面，分別從術創新與模型架構、訓練與優化流程、進行梳理。

A. 技術創新與模型架構

DeepSeek 以創新架構、高效資源運用、完全開源、低成本訓練策略，挑戰美國主導的 AI 模型市場。其技術與市場影響力不僅正在改變產業標準，更在算力競爭、中文 AI 發展、與 AI 商業模式上帶來顛覆性變化，讓開源環境更具競爭力。

B. DeepSeek-V3 訓練優化流程總覽

流程圖解讀

1. DeepSeek-V3 Base 作為基礎，透過少量冷啟動 CoT 數據進行 SFT（監督微調）。

2. 接著透過推理導向強化學習（GRPO + CoT 語言一致性獎勵）進一步優化模型。

3. 推理與非推理數據經過過濾與拒絕抽樣，確保數據品質，形成 DeepSeek-V3 SFT 訓練數據集。

4. 使用 Qwen 2.5、Llama 系列數據，再進行 2 輪 SFT 訓練（共 80 萬筆樣本），進一步提升模型能力。

5. 透過蒸餾技術產生 DeepSeek-R1-Distill 版本，以降低計算成本並保持推理能力。

6. 經過強化學習（RL），利用偏好獎勵與多樣化提示詞進行微調，最終獲得 DeepSeek-R1。

關鍵亮點

1. 分段穩定訓練：先進行 SFT，再透過 RL 提升推理能力，確保模型穩定成長。

2. 數據品質篩選機制：透過推理提示詞與拒絕抽樣，確保數據高品質，避免模型學習低質量輸入。

3. 多模型蒸餾泛化：結合 Qwen 2.5 & Llama 版本進行知識提取，提升模型的泛化能力。

4. 低成本高效輸出：使用 SFT + RL 策略，提升效能同時控制成本，使模型具備競爭力。

總結

DeepSeek 採用 分階段穩定訓練 策略，先以 少量 CoT 數據進行 SFT 微調，再透過 GRPO 強化學習與語言一致性獎勵 提升推理能力，並利用 數據篩選機制 確保訓練品質。

此外，融合 Qwen 2.5 和 Llama 進行 知識蒸餾，提升模型泛化能力，最終透過 蒸餾技術降低計算成本，確保 DeepSeek-R1 具備高效能與低成本優勢，在推理能力與市場競爭力上取得突破。

C. 未來市場可能的變化趨勢

未來AI 產業將從算力競爭轉向架構創新，開源 LLM、低成本 AI 方案和新型架構優化技術的興起，將挑戰封閉式技術與高端 GPU 市場布局型態，進一步加速 AI 技術的普惠化與市場技術轉型。

D. 哪些企業會最先適應 DeepSeek 帶來的 AI 變局?

“見情者獲，直往則違”

最可能適應並突圍的企業類型

就是那些受益於 LLM 成本-效能脫鉤趨勢，有能力透過資料驅動獲得市場優勢，例如：

i. 擁有大量高質量專屬資料的企業

這些企業具備 專有數據 (Proprietary Data)，而不是僅依賴公有網絡數據，能夠透過自有數據訓練客製化 LLM，形成 難以被競爭對手複製的 AI 生態。

ii. 低算力 AI + 高資料應用場景的企業

DeepSeek 將不會是最夠一個，這也暗示了未來及類似技術的出現必定會朝向 降低算力成本門檻的方向前進，因此過去無法負擔 LLM 訓練的小型企業，也有能力透過 開源 AI + 企業私有數據 來打造專屬 AI 應用。

iii. AI 科技公司 (突破頂級算力封鎖圈 + 降低對高資本密集算力的依賴)

DeepSeek 的成功展示相對較低算力創造出相對高效 AI 訓練的可行性，這對其他受技術封鎖影響的市場來說是一個重大機遇，畢竟這降低了對 AI GPU 的依賴程度，更幫 AI新創(AI Startups) 打開了一條全新的發展道路。

---後記

正如同我過去所預測(2024完成8個企業AI技術開發專案輔導後的心得)，AI建模能力仍舊將會是AI應用技術關鍵競爭核心，從技術趨勢預測分析模型的角度來看，目前在AI 建模領域，可以說是初期階段，未來仍有很大的競爭發展空間。

也因此，AI應用、AI應用系統架構設計、AI建模，這黃金三角組合會越來越明顯。

從產業生態系巨觀的整體視角來看，我認為關鍵在於DeepSeek 有多種不同的豐富開源版本，基於這種擁有媲美ChatGPT 的應用能力且可供商業化(MIT)的開源模型，這代表AI LLM 軟體領域開源將會開啓一個新的產業生態系的發展，可預見的影響力將會非常巨大深遠，可以說是AI LLM 發展分水嶺 (開源VS.閉源)也不為過！

軟體技術的商業模式穿透力非常強，從小範圍的產品技術開發，擴散到到市場商業模式設計，甚至可大到重塑產業鏈生態系。

透過AI技術，就有機會打造出非常有吸引力產業鏈生態系(AI as an Ecosystems, AIaaE)，這也是軟體技術吸迷人的地方。

#AIModeling

#ai_future_development

#AI_as_an_Ecosystem

#AIaaE

REF:

https://en.wikipedia.org/wiki/DeepSeek

https://x.com/markchen90/status/1884303237186216272

https://arxiv.org/search/cs?searchtype=author&query=DeepSeek-AI

https://x.com/SirrahChan/status/1881488738473357753

https://cyeninesky3.medium.com/deepseek-r1-論文解析-強化學習如何提升-ai-推理能力-9ddbc4ded9f6

智合創新

搜尋此網誌

2025年1月31日星期五

AIaaE-開源LLMs生態系的崛起 - EPISODE 0 - DEEPSEEK的衝擊

最可能適應並突圍的企業類型

i. 擁有大量高質量專屬資料的企業

ii. 低算力 AI + 高資料應用場景的企業

iii. AI 科技公司 (突破頂級算力封鎖圈 + 降低對高資本密集算力的依賴)

沒有留言:

張貼留言

AI刺激大眾激發元認知學習模式

檢舉濫用情形

follow me

搜尋此網誌

2025年1月31日 星期五

AIaaE-開源LLMs生態系的崛起 - EPISODE 0 - DEEPSEEK的衝擊

最可能適應並突圍的企業類型

i. 擁有大量高質量專屬資料的企業

ii. 低算力 AI + 高資料應用場景的企業

iii. AI 科技公司 (突破頂級算力封鎖圈 + 降低對高資本密集算力的 依賴)

沒有留言:

張貼留言

AI刺激 大眾激發 元認知學習模式

2025年1月31日星期五

iii. AI 科技公司 (突破頂級算力封鎖圈 + 降低對高資本密集算力的依賴)

AI刺激大眾激發元認知學習模式