AI 多媒體生產工具鏈

一個人用 AI 串起文字、圖片、語音、動畫、簡報，做出以前要一個小團隊才能產出的多媒體內容。

雷蒙的解釋

以前「做影片」意味著你需要：文案、設計、配音、剪輯，至少四個人。現在這條工具鏈讓一個人可以從一篇 Markdown 開始，一路產出配圖、語音旁白、動畫、甚至完整的教學影片。

關鍵不是每個工具都用最強的，而是「混搭」——每個環節用最適合的工具，然後用 AI 串起來。就像組樂高，單一積木不稀奇，組合方式才是作品。

目前的工具鏈組合（2026-04 snapshot）

環節	工具	選用理由	狀態
中文配圖	Gemini（`generate_image.py`）	中文字渲染最穩定	✅ 穩定
情境照	Z-Image Turbo（HuggingFace）	免費額度最大、速度快	✅ 穩定
語音合成	MiniMax speech-2.8-hd	中文自然度最高、$1/月	✅ 穩定
動畫 B-roll	Remotion（React）	品牌化控制最強	⚠️ 持續擴充模板
簡報	md-to-slides / Slidev	Markdown → HTML 簡報	⚠️ 待整合語音+自動化
影片剪輯	YouTube Clipper + FFmpeg	字幕切段 + 合成	✅ 穩定
逐字稿	mlx-whisper（本地）	離線、免費、M 系列加速	✅ 穩定

混搭原則

中文文字渲染 → 永遠 Gemini（FLUX 系列中文全亂碼）
真實感照片 → Z-Image（免費）或 Gemini（需要精準控制時）
語音 → MiniMax（繁體輸入需 opencc 轉簡體，否則變香港口音）
不追求單一平台通吃，追求每個環節的最佳性價比

未成熟的環節

簡報→影片自動化：md-to-slides → voice-clone → 合成影片的完整 pipeline 尚未穩定串接
B-roll 模板庫：目前模板數量有限，需隨教學影片製作持續擴充
影片章節頁自動化：Remotion 章節頁已可生成，但與剪輯流程的整合待優化

在哪裡討論過

文章

Cowork vs NotebookLM vs Code 三者比較（2026-04）
Claude Code 的 CLAUDE.md 和 SKILL 教學（2026-04）

實作紀錄

2026-04-06：HF 三模型對比測試，確立 Gemini + Z-Image 混搭策略
2026-04-06：voice-tool 開發完成，MiniMax API 上線
2026-04-04：ui-gallery CIS v5.0，品牌視覺系統化

相關概念頁

AI工具應用 — 本卡片是該主題頁的核心實踐案例
自動化 — 工具鏈的串接本身就是自動化思維的體現

相關概念

工具是思考的延伸、自動化、能力複利飛輪