趣丸集团联合牵手港中大(深圳),探索人工智能产学研深度融合新范式

来源: | 2025-04-03 15:44:49

  现如今人工智能领域正以前所未有的速度蓬勃发展,语音技术作为其中的关键一环,正深刻改变着人们的生活和工作方式。趣丸集团作为集兴趣社交、电子竞技、人工智能于一体的创新型科技企业,始终站在时代前沿,积极探索语音技术的无限可能,通过与顶尖科研团队的合作推出了新一代TTS模型——MaskGCT,为人工智能语音技术开辟了新的疆界,领航行业发展。

  MaskGCT研发团队在语音领域拥有深厚的研究积累和原创性成果。该工作由港中大(深圳)-趣丸科技人工智能联合实验室成员完成,这主要依托趣丸科技十年深耕音频技术领域和亿级高质量语音用户的服务经验,以及香港中文大学(深圳)国际一流水平的师资队伍。

  MaskGCT(Masked Generative Codec Transformer)是一个大规模的零样本TTS模型,采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。其在三个TTS基准数据集上都达到了SOTA效果,超过当前最先进的同类模型,某些指标甚至超过人类水平。

  相较于现有的TTS大模型,MaskGCT在语音的相似度、质量和稳定性上进一步突破,尤其在语音相似度方面处于绝对领先地位。据了解,MaskGCT模型具备高效声音克隆、多语言支持、情感化语音合成等显著优势,能够快速生成不同语言的旁白和对话,降低制作成本,提高制作效率。在情感化语音合成方面,MaskGCT能够模拟多种情感状态下的语音输出,使语音交互更加自然、富有情感,极大地提升了用户体验。

  然而,除了保持技术领先,大模型的更大价值在于走出实验室,赋能千行百业惠及千家万户,成为驱动经济增长的新质生产力。目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育、文旅导览等领域拥有丰富的应用场景。

相关阅读

每日精选