AI 多媒體生產工具鏈
一個人用 AI 串起文字、圖片、語音、動畫、簡報,做出以前要一個小團隊才能產出的多媒體內容。
雷蒙的解釋
以前「做影片」意味著你需要:文案、設計、配音、剪輯,至少四個人。現在這條工具鏈讓一個人可以從一篇 Markdown 開始,一路產出配圖、語音旁白、動畫、甚至完整的教學影片。
關鍵不是每個工具都用最強的,而是「混搭」——每個環節用最適合的工具,然後用 AI 串起來。就像組樂高,單一積木不稀奇,組合方式才是作品。
目前的工具鏈組合(2026-04 snapshot)
| 環節 | 工具 | 選用理由 | 狀態 |
|---|---|---|---|
| 中文配圖 | Gemini(generate_image.py) | 中文字渲染最穩定 | ✅ 穩定 |
| 情境照 | Z-Image Turbo(HuggingFace) | 免費額度最大、速度快 | ✅ 穩定 |
| 語音合成 | MiniMax speech-2.8-hd | 中文自然度最高、$1/月 | ✅ 穩定 |
| 動畫 B-roll | Remotion(React) | 品牌化控制最強 | ⚠️ 持續擴充模板 |
| 簡報 | md-to-slides / Slidev | Markdown → HTML 簡報 | ⚠️ 待整合語音+自動化 |
| 影片剪輯 | YouTube Clipper + FFmpeg | 字幕切段 + 合成 | ✅ 穩定 |
| 逐字稿 | mlx-whisper(本地) | 離線、免費、M 系列加速 | ✅ 穩定 |
混搭原則
- 中文文字渲染 → 永遠 Gemini(FLUX 系列中文全亂碼)
- 真實感照片 → Z-Image(免費)或 Gemini(需要精準控制時)
- 語音 → MiniMax(繁體輸入需 opencc 轉簡體,否則變香港口音)
- 不追求單一平台通吃,追求每個環節的最佳性價比
未成熟的環節
- 簡報→影片自動化:md-to-slides → voice-clone → 合成影片的完整 pipeline 尚未穩定串接
- B-roll 模板庫:目前模板數量有限,需隨教學影片製作持續擴充
- 影片章節頁自動化:Remotion 章節頁已可生成,但與剪輯流程的整合待優化
在哪裡討論過
文章
- Cowork vs NotebookLM vs Code 三者比較(2026-04)
- Claude Code 的 CLAUDE.md 和 SKILL 教學(2026-04)
實作紀錄
- 2026-04-06:HF 三模型對比測試,確立 Gemini + Z-Image 混搭策略
- 2026-04-06:voice-tool 開發完成,MiniMax API 上線
- 2026-04-04:ui-gallery CIS v5.0,品牌視覺系統化