开源电子书到有声读物转换器支持1000+多种语言

来源:网界网 | 2024-12-30 09:52:58

  开发人员 Drew Thomasson 最近推出了流行的 ebook2audiobook 项目的 2.0 版。版本 2.0 带来了新的 GUI,可以轻松访问微调的模型,以及用于本地 Mac、Windows 和 Linux 安装的易于使用的安装程序。然而,这些功能只是 ebook2audiobooks 可以做的冰山一角。

  使用开源 AI 项目的组合,ebook2audiobook 创建具有完整章节和元数据的有声读物,甚至能够进行语音克隆。为此,ebook2audiobook 采用兼容的非 DRM 电子书,并使用 Calibre 将它们转换为可用的格式。然后,这本书被分成几个章节,以帮助组织电子书的音频。最后,使用 Coqui XTTSv2 和 Fairseq 的组合将电子书转换为音频。Coqui 提供了一种文本转语音模型,该模型可生成高质量的音频,并允许用户使用他们的语音进行旁白。得益于 Facebook 的 Fairseq 模型,用户可以使用超过 1107 种语言。

  虽然 2.0 版包括一种更简单的方法,可以在各种操作系统上进行本地安装,但该项目也托管在 Hugging Face 和 Google Colab 上,使其更易于访问。但是,重要的是要注意,将电子书转换为音频是一个漫长的过程。此外,使用 Hugging Face 转换电子书的用户受到免费处理能力的限制,这会导致渲染时间变慢和潜在的超时。但是,对于希望在本地运行项目的用户来说,技术要求是合理的,该项目设计为仅在 4 GB 的 RAM 上运行。

相关阅读

每日精选