发布日期:2025-03-08 09:53 点击次数:107

底下的两个有声书演播片断凯发·k8国际app娱乐,你能分辨是真东谈主照旧 AI 合成的吗?
本色上这两个演义片断齐是 AI 合成的,决策来自于豆包语音模子团队。为了靠拢一流真东谈主主播的演播闭幕,豆包语音模子基于原有 Seed-TTS 框架进一步加入高下文领会,最终罢了了高推崇力、高当然度、高语义领会的演义演播闭幕。
豆包语音模子无需稀罕标签,端到端合成声息
市面上许多的语音模子仍是能保阐发足当然的合成推崇,但在音质、韵律、情谊,以及多变装演绎上还有探索空间。异常是在演义演播场景下,念念要失色一流主播淡雅的演播闭幕,要作念好旁白和变装的分辨演绎、变装情谊的精确抒发、不同变装的分辨度等。
传统的演义 TTS 生成步地,需要提前给对话旁白、情谊、变装打标签,而豆包语音模子则不错作念到端到端合成,无需稀罕标签标注。

△传统语音模子和豆包语音模子合成链路的区别检阅 Seed-TTS 技艺,合谚语音闭幕失色真东谈主
原始Seed-TTS(技艺报告:https://arxiv.org/pdf/2406.02430)是一种自追想文本到语音模子,主要分为 4 个主要模块:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。
其中 Speech Tokenizer 解析了参考音频信息,决定了合成音频的音色和全局格调;Autoregressive Transformer 接收传入的想法文本和 Speech Tokenizer 的输出,进而生成出包含语义信息的 Semantic Token;Diffusion Model 会基于 Semantic Token 建模出包含语消息息的 Acoustic Token;Acoustic Vocoder 庄重将 Acoustic Token 重建回应出最终的音频。

△原始 Seed-TTS 架构
为进一步提高演义演播下的语音推崇力和长文本的领会,豆包技艺团队对 Seed-TTS 进行了检阅。
在数据上,演义音频作念章节级别惩处,保证了长文下的语音一致性和连贯性。
在特征上,交融 TTS 前端提真金不怕火的音素、调子、韵律信息和原始文本,提高发音和韵律的同期,保留演义语义。
在结构上,将 speech tokenizer 改为speaker embedding,破除 reference audio 关于语音格调的终端,因而合并个发音东谈主能在不同变装上作出更贴合东谈主设的演绎。
终末在想法合成文本除外,稀罕加入了高下文的信息,从而使得模子梗概感知更大鸿沟的语义信息,旁白和变装音推崇更精确到位。
经由专科评测,优化后的豆包语音模子在演义演播场景,CMOS(Comparative Mean Opinion Score,与真东谈主打对比分的一种主不雅评分步地)已达一流主播的 90%+ 闭幕。

△优化后的豆包语音模子结构技艺落地番茄演义,惠及听书用户
豆包语音大模子团队以王明军、李满超两位演播圈大咖的声息为基础,选择新技艺合成的千部有声书,已上线番茄演义,题材遮掩了历史、悬疑、灵异、齐市、脑洞、科幻等热点书目类型。


据了解,曩昔豆包语音模子会持续探索前沿科技与业务场景的纠合,追求更极致的"听"体验。
豆包语音模子合成的演义音色闭幕
王明军演播试听:
李满超演播试听:凯发·k8国际app娱乐


