两种方法对比
本站提供了两种方法的配置生成和导入功能,分别是:
- 大声朗读 API (Edge TTS)
- Azure 官方 API
简单对比
| 大声朗读 API (Edge TTS) | Azure 官方 API | |
|---|---|---|
| 优点 | - 不用 Azure 账号 | - 稳定的访问和使用 - 完整的功能 - 不需要自行部署转发付费 |
| 缺点 | - 较为严格的请求频率限制 - 只可用部分声音(热门的那几个) - 无声音风格等高级功能 | - 需要注册一个账号(需要非银联银行卡) |
大声朗读 API
「大声朗读」 (Read aloud) 是微软为一系列自家服务提供的文字转语音服务。由于大家基本上都使用的是 Edge 浏览器上的接口,所以也被时常称为 "Edge TTS "。
该 API 使用的是 WebSocket 协议,而大部分阅读软件并不支持为这种协议编写听书源,因此需要用户部署一个转发服务用于将 WebSocket 协议转换成通常可用的 HTTP 请求。本项目使用的转发服务是 yy4382/read-aloud,可以部署到 Cloudflare Workers, Vercel 或者 Docker 容器中。
如果不需要自定义语音(并且不想自己部署转发服务),可以查看 可以直接使用的资源,其中提供了部分软件可以直接使用的配置(使用我自己的在 Cloudflare Workers 上部署的转发服务)。
如果需要自定义语音,可以参考 yy4382/read-aloud 的文档,部署一个转发服务后在 Edge TTS 导入页面中生成配置并导入。
该方法的优点是不需要创建微软 Azure 账号,完全免费。缺点是语音少、可自定义程度低(缺少语音风格等高级功能)、有比较严格的请求频率限制、需要自己部署转发服务。
Azure 官方 API
Azure 是微软的云服务平台,提供了语音合成服务。这是使用微软语音最「正规」的方式,每月给用户提供 50 万字符的免费额度。
要使用 Azure 官方 API,需要创建一个「Azure 语音服务」资源,并获取到 API 密钥和区域。具体操作请参考 帮助:创建资源。之后在 Azure TTS 导入页面中生成配置并导入。
该方法的优点是语音多、可自定义程度高(支持语音风格等高级功能)、没有请求频率限制、不需要自己部署转发服务。缺点是需要创建微软 Azure 账号,需要非银联银行卡;且如果听书量比较大,可能需要购买额外的额度。