AI 多媒體生產工具鏈

一個人用 AI 串起文字、圖片、語音、動畫、簡報,做出以前要一個小團隊才能產出的多媒體內容。

雷蒙的解釋

以前「做影片」意味著你需要:文案、設計、配音、剪輯,至少四個人。現在這條工具鏈讓一個人可以從一篇 Markdown 開始,一路產出配圖、語音旁白、動畫、甚至完整的教學影片。

關鍵不是每個工具都用最強的,而是「混搭」——每個環節用最適合的工具,然後用 AI 串起來。就像組樂高,單一積木不稀奇,組合方式才是作品。

目前的工具鏈組合(2026-04 snapshot)

環節工具選用理由狀態
中文配圖Gemini(generate_image.py中文字渲染最穩定✅ 穩定
情境照Z-Image Turbo(HuggingFace)免費額度最大、速度快✅ 穩定
語音合成MiniMax speech-2.8-hd中文自然度最高、$1/月✅ 穩定
動畫 B-rollRemotion(React)品牌化控制最強⚠️ 持續擴充模板
簡報md-to-slides / SlidevMarkdown → HTML 簡報⚠️ 待整合語音+自動化
影片剪輯YouTube Clipper + FFmpeg字幕切段 + 合成✅ 穩定
逐字稿mlx-whisper(本地)離線、免費、M 系列加速✅ 穩定

混搭原則

  • 中文文字渲染 → 永遠 Gemini(FLUX 系列中文全亂碼)
  • 真實感照片 → Z-Image(免費)或 Gemini(需要精準控制時)
  • 語音 → MiniMax(繁體輸入需 opencc 轉簡體,否則變香港口音)
  • 不追求單一平台通吃,追求每個環節的最佳性價比

未成熟的環節

  • 簡報→影片自動化:md-to-slides → voice-clone → 合成影片的完整 pipeline 尚未穩定串接
  • B-roll 模板庫:目前模板數量有限,需隨教學影片製作持續擴充
  • 影片章節頁自動化:Remotion 章節頁已可生成,但與剪輯流程的整合待優化

在哪裡討論過

文章

  • Cowork vs NotebookLM vs Code 三者比較(2026-04)
  • Claude Code 的 CLAUDE.md 和 SKILL 教學(2026-04)

實作紀錄

  • 2026-04-06:HF 三模型對比測試,確立 Gemini + Z-Image 混搭策略
  • 2026-04-06:voice-tool 開發完成,MiniMax API 上線
  • 2026-04-04:ui-gallery CIS v5.0,品牌視覺系統化

相關概念頁

  • AI工具應用 — 本卡片是該主題頁的核心實踐案例
  • 自動化 — 工具鏈的串接本身就是自動化思維的體現

相關概念

工具是思考的延伸自動化能力複利飛輪