继写作和绘画之后,你将解锁 AI 的另一项天赋:声音。这一课,你将把任意文字, 变成一段有感情、有节奏的生动语音——播音腔、温柔女声、故事讲述……声音是有个性的,你来选。
AI 把你的文字拆成音节,再根据学过的数百小时人声,预测每个音节应该是什么频率、什么起伏、什么情感——
最终合成一段听起来像真人的语音。
声音里的每一帧,都是 AI 从概率分布里采样出来的。
下面 5 个场景预设,涵盖了 TTS 最常见的用途。点一个填进文本框,选好声音和语速,听 AI 怎么读它。
第 1 步选文字,第 2 步选声音,第 3 步调语速,第 4 步点朗读。
声音本身是有情绪的。同样的文字,播音腔念出来是权威,温柔女声念出来是亲切,有声书声念出来是代入感。 一键生成 3 个版本,对比听听。
点下面任意一个预设文本填入,然后点"同时生成 3 个版本",等几秒后对比三种声音的感受。
这是本课最有趣的实验:AI 写手根据话题写出 A/B 双人对话剧本, AI 配音师逐句把剧本读出来。 两个 AI 分工协作,你只需要给一个话题。
第 1 步:选话题或自己写(一句话即可)。第 2 步:选 A/B 的声音。第 3 步:生成,等 AI 完成两步处理。
刚才发生的事情,正是 AI 世界一个重要概念的最小演示:多智能体协作(Multi-Agent)。
第一个 AI:语言模型(AI 写手)
它的工作是"想"——读懂你的话题,设计 A/B 两个角色,写出符合播客节奏的对话剧本。
它完全不知道最终要合成语音,只管输出结构化的 JSON。
第二个 AI:语音合成模型(AI 配音师)
它的工作是"说"——它不理解内容对不对,只管把每行文字精准转成声音。
A/B 用不同声音,所以听起来像两个真实的人在对话。
这就是 AI 的分工逻辑:每个模型只做自己最擅长的事,复杂任务通过"流水线"串起来完成。 将来你会见到更复杂的版本——搜索 AI + 写作 AI + 生图 AI + 发布 AI,一条命令,全自动出稿。 现在你已经见过它的雏形了。
选一个方向,粘贴文字到 ⑤ 工作台,选好声音,生成后下载:
操作路径:滚到下面 ⑤ 自由工作台 → 单人朗读 → 粘贴文字 → 选声音 → 点"生成语音" → 💾 下载 MP3。
前面都是在玩预设。现在把主导权交给你:粘贴任何文稿,选好声音,一键生成,下载带走。 支持单人朗读和双人对话两种模式。
选声音 → 粘贴或输入文稿 → 生成 → 下载。
你学到了什么
你解锁了声音的创作魔法,让高质量音频制作变得像打字一样简单。无论是为视频配上磁性旁白,还是创作"单人分饰两角"的趣味播客,你都已能轻松驾驭。声音,正式成为你创作工具箱里的利器。
啊哈时刻
原来,制作一段高质量的音频可以如此简单!无论是视频配音、听书,还是个人播客,都只是几下点击的事情。声音也成了我的创作素材。
深入学习路径