【產業剖析】探討 DeepSeek 出世將如何改變 AI 產業

DeepSeek 為一間中國量化對沖基金公司「幻化魔方」底下的 AI 新創公司,成立於 2023 年,今年一月底,DeepSeek 推出了其開源推理模型 DeepSeek-R1 及論文,一度造成美國股市恐慌性拋售 AI 公司,Nvidia、Broadcom、TSM 等皆遭到下殺。

【產業剖析】探討 DeepSeek 出世將如何改變 AI 產業

重點整理:

1.DeepSeek 模型的推出:DeepSeek-R1 模型的推出,大幅降低了踏入 AI 競爭的門檻,未來僅需依靠蒸餾技術,中小企業、甚至家戶即可自行創建、微調自己的推論 AI 模型。

2.對 AI 產業的影響:​這一次 DeepSeek 的爆發,象徵 AI 推理成本大幅度的下降,將加快 AI 從實驗室走向家戶的階段,真正將技術實行在終端上,因此並非以 AI 泡沫作為解讀,反而此次促成 AI 不同於 2000 的網路泡沫,因無法落地使用而最終走向失敗。

3.對市場未來的方向
: 對 AI 硬體持中立態度,未來訓練更高級,先進模型仍需運用比現今更大的算力需求,因此不宜保持過度悲觀,而 AI 軟體、邊緣 AI、PC、手機等為此波最大受惠者,加速將 AI 帶入到以上終端產品,增家公司競爭能力。

前言

在 2 月份投資專欄中,我們有簡單介紹 DeepSeek 公司背景以及競爭格局可能的改變,本篇將再更深入針對 DeepSeek 所推出的 AI 模型以及其將如何影響 AI 產業進行探討。

有關過去針對 DeepSeek 事件介紹及機構觀點,可參考下面文章,將有更詳細的解讀:

【勝券在沃:2月投資專欄】
精準解讀市場脈動,穩健布局未來趨勢

DeepSeek 推出 R1 模型引發全球轟動:

在過去 ChatGPT 發布 o1 模型前,市面上尚未有其他相關大型公司擁有其強大推理之同等模型,然而在 1 月,DeepSeek 發布了 R1 具備推理能力聊天機器人,其宣稱以更低的成本卻達到與 o1 相同同樣等級的效能並且開源公布了其所使用的訓練方法,以及多個蒸餾*的小型模型,雖然蒸餾的模型不具備推理能力,然而其在多個數學、程式等解答問題能力上仍領先 GPT-4o 並且接近於 o1-mini。

*模型蒸餾 ( model distillation ) : 讓規模較小,結構簡單的 AI 模型直接從大型、複雜的 AI 模型學習,比起重頭訓練更省成本,且可以安裝在較簡易的設備如手機、PC 上。

(圖 1) ChatGPT 所發布之模型 資料來源:OpenAI
(圖 2) DeepSeek 與 OpenAI 模型性能比較 資料來源:DeepSeek

DeepSeek R1 模型的成功之處

其實在模型的推理方面,其 DeepSeek R1 模型能力競爭上與 ChatGPT o1 相近,然而過去數年以來,ChatGPT 以及各大業者幾乎皆以閉源形式進行 AI 模型的開發,這樣的模式雖然有助於保持公司競爭力,防止其技術短時間內被同業對手追上,然而也開啟了過去兩年來美國大型 CSP 業者 (Meta、Google) 的算力戰爭儲備競賽,各大業者採購了大量 Nvidia 的 GPU 晶片及自研 ASIC 晶片、建置資料中心,彼此都投入了鉅額成本在模型開發上。

在談 DeepSeek 創新之處前,必須先介紹訓練 AI 過程中的獎勵機制與方法,在語言模型(如 ChatGPT)中,強化學習主要透過 SFT、RLHF(Reinforcement Learning with Human Feedback,強化學習與人類回饋) 來提升模型的回答質量,主要步驟如下:

  1. 先進行監督式微調 ( Supervised Fined-Tuning,SFT ),可以理解為先標記好答案,讓 AI 模型在訓練過程中可以一邊對比誤差,一邊給出更優質的答案
  2. 利用 RLHF 進行微調

a. 人類標註者評價模型輸出,給出品質較好的答案更高分。

b. 比較不同答案的優劣,幫助模型學習什麼是「較好的回答」。

c. 使用強化學習,讓模型偏向選擇較高獎勵的答案,提高回答的品質。

  1. 最終效果:模型能夠學習更符合人類語言習慣的回答方式,提高可讀性、邏輯性與推理能力。

而此次 DeepSeek 發布的論文DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》中,其分別開發了 DeepSeek-R1-Zero 以及 DeepSeek-R1-Zero 模型,其中 R1-Zero 的創新在於其省略了傳統 LLM model 訓練的第一個步驟 (SFT) 通過,讓模型無需借助外部數據,僅依靠其自身的推理能力,即可隨時間自我進化發展出解決問題的能力,實現從內部的自我的提升。模型出現了開始出現複雜行為,如反思 ( 回顧並重新評估之前步驟 )、探索其他問題的解法等行為,甚至如人類一樣,會思考問題時會經歷「頓悟時刻 (aha moment)」,學會為問題分配更多的思考時間。

(圖3) DeepSeek-R1-Zero 隨著時間自我學習,準確率逐漸提高 資料來源: DeepSeek

圖中提到 DeepSeek-R1-Zero 模型展現強大的數學、程式能力,然而其問題在 DeepSeek-R1-Zero 的可讀性、語言表達能力等相較 o1 等模型仍然較差,因此 DeepSeek 加入冷啟動 (Cold Start)、也就是先準備一堆思考鍊 Chain-of Thought,CoT 範本讓他學習,之後同樣通過 RL 學習強化,之後 Rejection Sampling 拒絕品質較低的回覆以及 SFT 的微調,成功開發出 DeepSeek-R1 模型,並且重點之處在於,DeepSeek 通過蒸餾模型,微調出較小但同樣具備推理能力的模型,這些模型的參數從 15 億到 700 億不等,其中最小的 DeepSeek-R1-Distill-Qwen-1.5B 甚至在 iphone 16 即可運行,而中等的 DeepSeek-R1-Distill-Qwen-32B 模型能力則媲美 o1-mini 模型,顯示相較於投入大量成本使用 RL 訓練 AI 模型,中小企業、甚至家戶僅需透過蒸餾模型技術,即可達到接近於先進 AI 模型的程度,大幅降低了踏入 AI 應用的門檻。

(圖4) 各蒸餾模型對於 GPU 配置需求 資料來源: 自行整理
(圖5) 蒸餾模型 與 OpenAI-o1 模型比較 資料來源: DeepSeek

DeepSeek R1 模型對 AI 產業的影響

  1. 推理模型將變得更為普遍:在發布模型前,僅有 Google、OpenAI 有能力發布出推理 (Reasoning) 模型,剩下美、中企業仍停在一般的語言生成模型,然而在 DeepSeek 發布以後,許多企業都可以複製 DeepSeek 的訓練方法,將自家模型升級成推理模型可解讀為中小型的雲端企業與大型雲端公司拉近了距離同時由於競爭者增加,將引發 AI 推論的價格戰開打,可看到近期 OpenAI 立即發布了最新的 o3-mini 作為回應,並且將其設為免費使用 (但限制問答次數),Google 亦相繼推出更新 Gemini 2.0 Pro,同樣開放免費額度,變相等同於降低整體模型價格,預計未來網頁上的 AI 模型會更加百花齊放並且單價持續下降。
  2. DeepSeek 的出現引發了市場對 AI 基礎設施需求的擔憂:透過優化演算法,企業可以用更少的 GPU 資源便可發展更高性能的 AI 模型,是否未來對於輝達的 GPU 需求量就會減少,影響未來對於 AI 晶片的需求量? 此正確答案需經過時間的考驗證明,然而持反對論點如 Microsoft 執行長 (Satya Nadella) 多引用 「Jevon's Parodox」作為回應,認為反而會因為門檻的下降,更多人參與市場,反而會讓未來對於 AI 晶片的需求提升,然而觀察 2/5 Google 財報顯示對 AI 資本支出加碼高於市場預期,隔日下跌市場反應來看,投資人的擔憂確實反映在股價上。

*Jevon's Parodox 由 William Stanley Jevons 在 1865 年提出。 這個悖論指出,當某項資源的使用效率提高時,反而會導致對該資源的需求增加,著名的例子是蒸汽機改良後技術升級,運用更少的煤炭,生產出更多動力,當時有人擔心因此煤炭需求降低,然而實際情形是對煤炭的需求反而大增。

長線來看,大型雲端業者仍有投入高額資本支出必要:DeepSeek 的 R1-zero 及 R1 模型是通過 DeepSeek 過去發布的 V3 Base model 通過 RL 強化訓練得出,OpenAI 的 o1 model 也類似,是基於 GPT-4 Base model 訓練後得出,而未來也必須要發展至更高階 Base model 模型 ( 如 GPT 5 ),才能再透過訓練流程得出性能更佳的 AI model,而每一代的 Base model 的發展就必須運用到相較上一代更高的算力消耗,因此亦回應第一及第二點,對於大型 CSP 業者立場而言,他們與中小企業距離相近,然而身為龍頭公司,擁有必須是最先進 AI 模型的壓力 ( 放棄投資將被逐出長期領賽道 ) ,甚至在 Google 定義上的「通用人工智慧」(artificial general intelligence,AGI) ,人類目前僅在等級 1:初步 (Emerging),離真正實現最高階人工智慧還有很大段的距離,也可看出 Google 加大資本支出的立場,但短期科技公司可能會面臨股東壓力,且市場焦點將逐漸從投資 AI 硬體,轉向如何推出 AI 產品 ( 應用端上的實現 )

  1. DeepSeek 的出現並非象徵 AI 的泡沫,而是 AI 真正走向大眾市場引用 Meta 執行長祖克伯的回應:「 隨著時間的推移,就像每個企業都有一個網站、一個社交形象和一個電子郵件地址一樣,在未來,每個企業也將擁有一個客戶可以與之交互的 AI 代理。 我們的目標是讓每個小企業,最終每個企業,都可以輕鬆地將其所有內容和目錄提取到一個 AI 代理中從而推動銷售並節省資金。 這一時點正在逐步臨近」,這一次 DeepSeek 的爆發,象徵 AI 推理成本大幅度的下降,大幅加快從實驗室走向家戶的階段,因此並非以 AI 泡沫作為解讀,反而此次促成 AI 不同於 2000 的網路泡沫,因無法落地使用而最終走向失敗。
(圖6) Google 定義 AI 模型等級 資料來源: Google

DeepSeek R1 模型將加速 AI Agent 實現,受惠軟體公司

DeepSeek 事件將加速 AI agent 進程,未來開源環境將減低各公司間資訊落差,增快 AI 開發速度投入於應用端,如客戶關係管理如 Salesforce (CRM)、雲端資安產業 CrowdStrike (CRWD) 等公司長期將受惠於 DeepSeek 帶來的影響,未來將能提供更具成本效益的解決方案。提升市場競爭力,因此在 DeepSeek 公布後 AI 軟體相關概念股當周股價不跌反漲,未來看好 AI agent 在終端應用持續增加甚至是利用 AI 軟體的新創公司的崛起。

(圖7) 在 NVDA、TSM 等 AI 硬體下跌的同時,軟體股在 1/27 多數呈現上漲 資料來源: Bloomberg
(圖8) SaaS 、軟體股受惠於 AI 成本下降,看好產業未來營運將更具競爭力 資料來源: Bloomberg

DeepSeek R1 蒸餾模型有望刺激邊緣 AI 應用、手機及 PC 換機潮

DeepSeek R1 所發布之 1.5B ~ 70B 蒸餾模型,讓過去複雜、僅能在雲端上運作的推理模型直接在本地 PC 上運作大幅增加了 AI PC 未來提升的潛力,過去一年,AI PC 的推動並沒有如預期火熱,主因是尚未看到殺手級應用,除了麥克風、鏡頭增加、具備 Copilot + PC 的 NPU (神經網路處理器(Neural-network Processing Unit)) 具備 AI 算力,和 PC 並沒有太大的差異,人們並沒有因為 AI 而另外購買 PC,PC 的 TAM (Total Accessable Market) 和差異不大。

然而在 DeepSeek 蒸餾模型的推出,加速實現本地端模型推論工作的運行,並結合功能於 PC 上,具備想像空間,然而現階段,AI PC 多數主打的「NPU」( 過去一年由微軟主張,具備 40 TOPs 以上的 NPU 才被稱作 AI PC ),僅能運行 1.5B ~ 7B 的蒸餾小模型,在運行速度、實用程度、評分皆遠不及 o1 模型的水準 ( 詳細比較可回顧圖 5 ),因此推斷,在各家 PC 搶先競爭將須更高算力的 32B~ 70B 下融入本地 PC 下,焦點將從 NPU 轉戰至純 dGPU ( 獨立顯卡,Nvidia 市占 88% ) 或 NPU + dGPU在效能大幅提升下,提高客戶的換機意願,實現換機潮,且因 dGPU 成本更高,AI PC 價格將相較於傳統 PC 單價更高,在目前裝有 dGPU 之筆電多數為電競筆電,以台廠的華碩 (ASUS)、微星 (MSI) 等品牌廠經驗相較 Dell、HP 等經驗更為豐富、售後管理經驗、布局相對完善,因此預計美股未來以 Apple 的 mac 系列更為受惠。

結論:DeepSeek 引領 AI 產業突破,未來市場將更注重於 AI 的終端應用

這次的市場波動主要來自於:

1. AI 踏入成本降低,通過演算法的優化,可用更低的成本訓練出同等的訓練模型 ( 然而對算力的需求並沒有因此消失,如前面提及,未來更先進的模型仍必須投入更多算力及硬體設備 )

2. 開發出演算法優化公司不在美國,而是競爭對手中國,引發大家對於晶片管制其實無效的恐慌 ( 前面總結中國是通過優化的演算法成功,也因此反而更有晶片管制的必要,且實際上 OpenAI 執行長 Sam Altman 亦表示, DeepSeek-R1 zero 的創新非常貼近於過去 o1 開發過程中發現的點,只是 o1 選擇閉源開發 ),實際上美國的 AI 模型不論在硬體、軟體開發上皆仍然領先中國,但未來仍須注意中國在 AI 領域的競爭。)

而展望未來,DeepSeek 最大的影響為讓過去 AI 開發的閉源生態轉為開源,AI 開發速度將會加快、成本降低,有利於大型及中小 CSP 業者、以及加速導入全新 AI 推論模型及功能於 PC、手機當中,實現人人客製化的 AI agent。短期而言,CSP 業者的 Capex (資本支出) 還尚未看到薛減的跡象,未來須注意針對 AI 基礎設施的投資成長率是否趨緩,也預計市場將從注重 AI 硬體、晶片,更轉向於終端應用,並樂觀看待 AI 未來帶動人類社會生產力的提升。

以上內容僅供內部參考使用,不構成投資建議,未經同意不得轉傳、修改、販售,讀者須自行評估風險。

Read more

【個股觀點:SOFI】顛覆傳統的金融科技新勢力

【個股觀點:SOFI】顛覆傳統的金融科技新勢力

SoFi Technologies, Inc.(SOFI)為美國金融科技公司,總部位於舊金山,由 Stanford 大學 MBA 學生於 2011 年所創立,起初以提供學生借貸業務而聞名,現將其業務擴大,包含個人貸款、信用卡、抵押貸款、投資帳戶、銀行業務等金融服務,公司成立中旨在於為消費者提供全方位便捷的金融服務。 我們看好 SOFI 的三大理由 1. 垂直整合的業務模式 SoFi 的一大優勢在於其從貸款、儲蓄到投資服務的全方位整合。與傳統銀行相比,SoFi 不僅提供一站式金融解決方案,還透過數據驅動的個性化服務,提升用戶黏著度,從而有效降低客戶獲取成本。 2. 不斷擴張的會員基礎 SoFi 的會員數量增長速度驚人,這得益於其多元化的金融服務與用戶體驗。SoFi 的活躍會員數量已突破 1000 萬人。隨著產品滲透率提高,每位用戶的平均收入(ARPU)也將進一步增長,為未來營收提供強勁支撐。 3.

百年傳承與家族企業治理—李錦記的經驗與啟示

百年傳承與家族企業治理—李錦記的經驗與啟示

百年家族企業若要順利傳承,經常面臨「富不過三代」的魔咒。李錦記家族在歷經兩次重大內部分裂後,深刻體認到制度化的家族傳承至關重要。透過家族委員會和家族憲章的設立,以及可能的閉鎖性公司與家族信託架構,降低家族企業在傳承中面臨的風險。 家族企業的傳承挑戰:李錦記的兩次分家事件 李錦記於1888年成立後,第一次重大家族分裂發生在1972年。當時第二代傳人李錦裳去世,三位兒子分得平均股權,但三兄弟經營理念分歧,長子李兆榮與次子李兆登主張保守經營,三子李兆南則主張積極擴張。最後兩位哥哥決定出售股權退出企業,李兆南之子李文達購買了這些股份,成為第三代掌門人。 第二次家族衝突發生於1987年,李文達與其弟弟李文樂因股權分配問題爆發爭執,甚至對簿公堂,最終經過兩年官司纏訟,李文達以8,000萬港元買回李文樂的四成股份。這次事件充分暴露家族傳承時內部治理不足的問題,也凸顯出家族成員直接持股的結構易導致股權分散與治理風險。 經歷兩次分家後,李文達深刻體認到,家族企業若要持續發展,必須建立更有效的治理機制,避免家族內部紛爭威脅到企業的永續經營。 家族憲章的建立:自我約束與治理規範 在面對家族傳