在 AI 技術的快速演進下,AI整體市場格局正在發生重大變化。從開源與閉源的競爭,到小模型挑戰大模型,再到算力需求的變革,這些趨勢不僅影響技術發展,也將重塑全球 AI 產業格局。
DeepSeek的出現所造成的影響意義深遠,本文嘗試從四個點切入探討未來 AI 市場可能的變化及其對企業的影響。
(針對近期DEEPSEEK對市場網路新聞資訊變化,整理收集網路資訊並與ChatGPT對話整理與修改及補充後,探討目前觀察到的資訊,經過整理補充與修改的內容仍可能有誤,請謹慎閱讀參考。)
1. DeepSeek 綜合資訊
2. DeepSeek-V3 訓練與優化流程總覽
3. 未來市場的變化趨勢
4. 哪些企業會最先適應 DeepSeek 帶來的 AI 變局?
關鍵字:DEEPSEEK, AI, AI黃金三角, AI FUTURE TREND, AIaaE, AI as an Ecosystem, open source, LLM
1. DeepSeek 綜合資訊
DEEPSEEK是一種AI LLM技術,於2025年1月20日首度發表。
從目前收集到的資訊經過整理後,首先從類型、特色以及重點摘要三個層面,分別從術創新與模型架構、訓練與優化流程、進行梳理。
A. 技術創新與模型架構
DeepSeek 以創新架構、高效資源運用、完全開源、低成本訓練策略,挑戰美國主導的 AI 模型市場。其技術與市場影響力不僅正在改變產業標準,更在算力競爭、中文 AI 發展、與 AI 商業模式上帶來顛覆性變化,讓開源環境更具競爭力。
B. DeepSeek-V3 訓練優化流程總覽
流程圖解讀
1. DeepSeek-V3 Base 作為基礎,透過少量冷啟動 CoT 數據進行 SFT(監督微調)。
2. 接著透過 推理導向強化學習(GRPO + CoT 語言一致性獎勵) 進一步優化模型。
3. 推理與非推理數據經過過濾與拒絕抽樣,確保數據品質,形成 DeepSeek-V3 SFT 訓練數據集。
4. 使用 Qwen 2.5、Llama 系列數據,再進行 2 輪 SFT 訓練(共 80 萬筆樣本),進一步提升模型能力。
5. 透過蒸餾技術 產生 DeepSeek-R1-Distill 版本,以降低計算成本並保持推理能力。
6. 經過強化學習(RL),利用偏好獎勵與多樣化提示詞進行微調,最終獲得 DeepSeek-R1。
關鍵亮點
1. 分段穩定訓練:先進行 SFT,再透過 RL 提升推理能力,確保模型穩定成長。
2. 數據品質篩選機制:透過推理提示詞與拒絕抽樣,確保數據高品質,避免模型學習低質量輸入。
3. 多模型蒸餾泛化:結合 Qwen 2.5 & Llama 版本 進行知識提取,提升模型的泛化能力。
4. 低成本高效輸出:使用 SFT + RL 策略,提升效能同時控制成本,使模型具備競爭力。
總結
DeepSeek 採用 分階段穩定訓練 策略,先以 少量 CoT 數據進行 SFT 微調,再透過 GRPO 強化學習與語言一致性獎勵 提升推理能力,並利用 數據篩選機制 確保訓練品質。
此外,融合 Qwen 2.5 和 Llama 進行 知識蒸餾,提升模型泛化能力,最終透過 蒸餾技術降低計算成本,確保 DeepSeek-R1 具備高效能與低成本優勢,在推理能力與市場競爭力上取得突破。
C. 未來市場可能的變化趨勢
未來AI 產業將從算力競爭轉向架構創新,開源 LLM、低成本 AI 方案和新型架構優化技術的興起,將挑戰封閉式技術與高端 GPU 市場布局型態,進一步加速 AI 技術的普惠化與市場技術轉型。
D. 哪些企業會最先適應 DeepSeek 帶來的 AI 變局?
“見情者獲,直往則違”
最可能適應並突圍的企業類型
就是那些受益於 LLM 成本-效能脫鉤趨勢,有能力透過資料驅動獲得市場優勢,例如:
i. 擁有大量高質量專屬資料的企業
這些企業具備 專有數據 (Proprietary Data),而不是僅依賴公有網絡數據,能夠透過自有數據訓練客製化 LLM,形成 難以被競爭對手複製的 AI 生態。
ii. 低算力 AI + 高資料應用場景的企業
DeepSeek 將不會是最夠一個,這也暗示了未來及類似技術的出現必定會朝向 降低算力成本門檻的方向前進,因此過去無法負擔 LLM 訓練的小型企業,也有能力透過 開源 AI + 企業私有數據 來打造專屬 AI 應用。
iii. AI 科技公司 (突破頂級算力封鎖圈 + 降低對高資本密集算力的 依賴)
DeepSeek 的成功展示相對較低算力創造出相對高效 AI 訓練的可行性,這對其他受技術封鎖影響的市場來說是一個重大機遇,畢竟這降低了對 AI GPU 的依賴程度,更幫 AI新創(AI Startups) 打開了一條全新的發展道路。
---後記
正如同我過去所預測(2024完成8個企業AI技術開發專案輔導後的心得),AI建模能力仍舊將會是AI應用技術關鍵競爭核心,從技術趨勢預測分析模型的角度來看,目前在AI 建模領域,可以說是初期階段,未來仍有很大的競爭發展空間。
也因此,AI應用、AI應用系統架構設計、AI建模,這黃金三角組合會越來越明顯。
從產業生態系巨觀的整體視角來看,我認為關鍵在於DeepSeek 有多種不同的豐富開源版本,基於這種擁有媲美ChatGPT 的應用能力且可供商業化(MIT)的開源模型,這代表AI LLM 軟體領域開源將會開啓一個新的產業生態系的發展,可預見的影響力將會非常巨大深遠,可以說是AI LLM 發展分水嶺 (開源VS.閉源)也不為過!
軟體技術的商業模式穿透力非常強,從小範圍的產品技術開發,擴散到到市場商業模式設計,甚至可大到重塑產業鏈生態系。
透過AI技術,就有機會打造出非常有吸引力產業鏈生態系(AI as an Ecosystems, AIaaE),這也是軟體技術吸迷人的地方。
REF:
https://en.wikipedia.org/wiki/DeepSeek
https://x.com/markchen90/status/1884303237186216272
https://arxiv.org/search/cs?searchtype=author&query=DeepSeek-AI
https://x.com/SirrahChan/status/1881488738473357753
https://cyeninesky3.medium.com/deepseek-r1-論文解析-強化學習如何提升-ai-推理能力-9ddbc4ded9f6
沒有留言:
張貼留言