正式开始
请全程魔法
安装Git Lfs: git lfs install
克隆仓库: index-tts/index-tts: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
拉取Git Lfs文件: git lfs pull
安装UV(Python包管理器,类似pip): pip install -U uv
安装依赖: uv sync --extra webui
安装hf-cli: uv tool install "huggingface-hub[cli,hf_xet]"
从hf下载模型: hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints
运行web UI: uv run webui.py
浏览器打开 7860 端口
简单使用
WebUI页面长这样

首先将音色参考音频输入(几秒即可)
然后输入要朗读的文本
最终点击生成
调教
推荐使用 使用情感向量控制

发现错误或想要改进这篇文章?
在 GitHub 上编辑此页文章修订历史 (10 次)
查看变更记录
fix: 添加public前缀
fix: 路径修复
refactor: 批量更新所有文章图片路径为 public 目录引用
feat: 将所有存量文章时间统一减去8小时,修正时区偏移
chore: remove AI summaries from posts
docs: 统一博客文章AI摘要模型为gemini-3-flash-preview并优化内容
feat(posts): 为所有文章添加AI摘要并支持AI类型提示块
压缩图片
docs(posts): 添加视频教程链接并更新工作区文件
posts: 添加了关于音色克隆的新文章index-tts2,包含详细使用教程