原始發表日期:2026-04-25
日本科技媒體將放屁聲輸入給支援語音分析的 ChatGPT,結果 AI 竟給出「具備強烈氛圍且結構完整」的荒謬卻煞有其事的評論。這則看似博君一笑的網路實驗,在財經與科技分析師眼中,卻深刻揭示了當前大型語言模型(LLM)在邁向「多模態(Multimodal)」發展時的技術盲區,以及資本市場對 AI 基礎設施無底洞般投資的潛在風險。
生成式 AI 產業目前正處於從「純文字」轉向「視覺與聽覺全方位感知」的多模態軍備競賽中。OpenAI、Google 等巨頭試圖讓 AI 能夠理解真實世界的複雜訊號。然而,這場競賽面臨著嚴重的「幻覺(Hallucination)」問題。當 AI 接收到超出其訓練數據常理的邊緣案例(Edge Cases)——例如單純的生理噪音時,其底層機率模型依然會強行生成一段符合人類語法的「合理化廢話」。這種現象凸顯了目前 AI 缺乏真實世界物理常識與常理判斷的致命傷,這對於需要極高精確度的醫療診斷、自動駕駛或金融風控等 B2B 商業化應用,構成了一道難以跨越的信任壁壘。總經分析從總體經濟的資本支出(CapEx)角度來看,這類多模態模型的訓練與推理(Inference),消耗了極其龐大的雲端算力與電力資源。市場正在經歷一場「AI 基礎設施泡沫(AI Infrastructure Bubble)」。企業耗費數十億美元購買 Nvidia 的 GPU 叢集,卻可能被大量終端用戶用於生成毫無經濟價值的娛樂內容(如分析放屁聲)。若 AI 應用的商業變現能力(ARPU)無法追上運算成本的指數級增長,將導致科技巨頭的利潤率遭到嚴重反噬。這種「高成本、低實質產出」的落差,是當前 AI 產業在宏觀經濟高利率環境下最大的隱憂。未來展望要突破此一瓶頸,未來的 AI 發展勢必走向「專業小模型(SLM, Small Language Models)」與「邊緣運算(Edge AI)」。與其依賴一個無所不知卻常說廢話的雲端大模型,企業將更傾向於部署針對特定領域(如純粹的工業異音檢測、心音分析)經過精準微調、且能在本地端低功耗運行的專用 AI。對於投資人而言,除了繼續持有硬體晶片巨頭外,應開始將目光轉向能夠提供高效能模型微調服務、以及能解決 AI 幻覺問題的數據合規與資安驗證(AI Alignment)新創公司。財經小辭典多模態(Multimodal):指人工智慧不僅能處理文字,還能同時理解、關聯並生成圖像、聲音、影片等多種資料型態的技術能力。AI 幻覺(AI Hallucination):生成式 AI 模型在沒有足夠事實根據的情況下,一本正經地生成看似合理但實際上完全錯誤或無意義的內容的現象。推理成本(Inference Cost):AI 模型訓練完成後,在實際運行並回答使用者問題時所消耗的運算資源成本。處理語音與影像等多模態輸入的推理成本遠高於純文字。
從總體經濟的資本支出(CapEx)角度來看,這類多模態模型的訓練與推理(Inference),消耗了極其龐大的雲端算力與電力資源。市場正在經歷一場「AI 基礎設施泡沫(AI Infrastructure Bubble)」。企業耗費數十億美元購買 Nvidia 的 GPU 叢集,卻可能被大量終端用戶用於生成毫無經濟價值的娛樂內容(如分析放屁聲)。若 AI 應用的商業變現能力(ARPU)無法追上運算成本的指數級增長,將導致科技巨頭的利潤率遭到嚴重反噬。這種「高成本、低實質產出」的落差,是當前 AI 產業在宏觀經濟高利率環境下最大的隱憂。未來展望要突破此一瓶頸,未來的 AI 發展勢必走向「專業小模型(SLM, Small Language Models)」與「邊緣運算(Edge AI)」。與其依賴一個無所不知卻常說廢話的雲端大模型,企業將更傾向於部署針對特定領域(如純粹的工業異音檢測、心音分析)經過精準微調、且能在本地端低功耗運行的專用 AI。對於投資人而言,除了繼續持有硬體晶片巨頭外,應開始將目光轉向能夠提供高效能模型微調服務、以及能解決 AI 幻覺問題的數據合規與資安驗證(AI Alignment)新創公司。財經小辭典多模態(Multimodal):指人工智慧不僅能處理文字,還能同時理解、關聯並生成圖像、聲音、影片等多種資料型態的技術能力。AI 幻覺(AI Hallucination):生成式 AI 模型在沒有足夠事實根據的情況下,一本正經地生成看似合理但實際上完全錯誤或無意義的內容的現象。推理成本(Inference Cost):AI 模型訓練完成後,在實際運行並回答使用者問題時所消耗的運算資源成本。處理語音與影像等多模態輸入的推理成本遠高於純文字。
要突破此一瓶頸,未來的 AI 發展勢必走向「專業小模型(SLM, Small Language Models)」與「邊緣運算(Edge AI)」。與其依賴一個無所不知卻常說廢話的雲端大模型,企業將更傾向於部署針對特定領域(如純粹的工業異音檢測、心音分析)經過精準微調、且能在本地端低功耗運行的專用 AI。對於投資人而言,除了繼續持有硬體晶片巨頭外,應開始將目光轉向能夠提供高效能模型微調服務、以及能解決 AI 幻覺問題的數據合規與資安驗證(AI Alignment)新創公司。財經小辭典多模態(Multimodal):指人工智慧不僅能處理文字,還能同時理解、關聯並生成圖像、聲音、影片等多種資料型態的技術能力。AI 幻覺(AI Hallucination):生成式 AI 模型在沒有足夠事實根據的情況下,一本正經地生成看似合理但實際上完全錯誤或無意義的內容的現象。推理成本(Inference Cost):AI 模型訓練完成後,在實際運行並回答使用者問題時所消耗的運算資源成本。處理語音與影像等多模態輸入的推理成本遠高於純文字。