奥多码,点击查看详情 97CDN云盾,点击查看详情

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 FireRedTTS 语音合成系统,并分享了在短视频配音及聊天式语音对话等应用的一些实践。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AIFireRedTTS 只需要给定文本和几秒钟参考音频,无需训练,就可模仿, b P任意音^ H ~ Q m ] P色、任意说话风格,创造独特的音频内容。搞怪风、女友u l f @ o / v风、emo 小{ E k I d g片段…… 百变风格自由定制,只有你想不到,没有 Fire/ m \ &RedTTS 做不到。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI是的,你没听错。这一段带着京腔,中英文混杂的片段正是由 FireRedTTS 生成。中英夹杂的 strong* ) I h(死装)感在「city」中透着一丝阴阳怪气。不只语言混杂,w % f – # ~FireRedTTS 还有让人直呼「更 city」的r W I , B 5 P配音\ \ p a 6 J P = S与对话。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI大家听出来了哪几C f } C Q \ L个影视剧角色?运用 FireRedTTS,能够让《黑神话》悟空、《亮剑》李云龙、《狂飙》中的徐江、《西虹市首富》中的王多鱼这些本不可能聚集在一起的人物插科打诨,互相斗嘴,整活不断。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI
FireRedTTS 不仅能够驾驭多风格、高表现力的音色,在自然对话领域也表现亮眼。视频中基于 FireRedTTS 的陪伴式交流真实自然,刁蛮可爱的女友形象让人情不自禁。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI
同时,除运用 FireRedTTS 的能力进行多音色、中英混杂的「整花活」之外,FireRedT\ y #TS 还能够生成具有J h :小红书博主风= ^ e ! u x I格的高级感旁白,少年博主音颇具特色,将听2 * M &众拉入即将离去的夏天。
FireRedTTS 的效果卓群,能 hold 住不同类型、不同风格、不同使用场景的需求。目前,FireRed 团队已经公布了该工作的R . V # _技术报告,并且将开源模型权重和推理代码,以供大家体验尝试。
FireRedTTS 是如何一步步突破局= 5 T u限,做到如此惊艳的效果?我们可以打开 FireRedTTS 的论文一探究竟。

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

  • 技术报告及 Demo 链接:https://arxiv.org/abs/2409.0328! \ \ _3
  • 代码链接:https://github.com/FireRedTeam/FireRe[ Z V : ) ` 5 = 1dTTS
FireRedTTS 提出了一套完整的基座语音合成框架,由三部分组成:数据处理、基座系统、与下游应用。在基座系统部分,他+ H k + t %们提出了一种基于语言模型的语音合成方案,旨在利用语言模型强大的序列生成能力,将文本序列转换成自然的、有表现力的语音序h n i p \ 7 q 9 }列。
该方案首先训练一个关注语义信息的语音离散编码器,以把语音$ s t A k 4 s w C信号转换成离散的标签序列,和一个说话人全局表征。随后,文. k . n ,本到语音的语言模型被训练以从文本和说话人表征中预测目标语音序列。
为将预测的离散语音序列稳定地还原至高保真音频,FireRedTTS 提出了一种两阶段方法:先用大规模低采样率数据训练高泛化性梅尔谱生成器,再用小规模高保真数据训练超` 9 p O ^ 9 @分辨神经i , ! A d声码器以合成高采样率音频。同时,除了基于流匹配的解码器,该系统还提出了一种基9 2 [ ; i x : w于多流语言模型的流式解码器以满足流式解码需求。

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

待基座模型训练完毕后,FireRedTTS 便可以通过 In-Context Learning, Supervised Fine-Tuning, Instruct Tuning 等方法,服务下游语音应用。比如:在配音领域,该系统可以零样本克隆用户声音、1 小时数据构造专业级特色Q ) I y Z \ 4 B U声音;在自然o { r对话领域,该系统通过指令优化实现情感和副语言行为可控的拟人化语音生成。
更多研究细节,可参考原论文。

以上就是名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/117278.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2024-12-25 12:07
下一篇 2024-12-25 12:08

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。