阿里发布两款语音新模型

2个月前 (03-02)财经热点3

  上证报中国证券网讯(记者杨翔菲)3月2日,阿里发布两款语音新模型,基于参考音频的声音克隆模型Fun-CosyVoice3.5和无参考音频的音色设计模型Fun-AudioGen-VD。两款模型均引入“指令遵循”能力,自由控制声音的情感、语速、场景等,可用freestyle(自由风格模式)定制角色,适用于有声书、游戏、客服、播客、

  两款模型在同尺寸模型的基准评测中斩获多项SOTA。在Seed-TTS基准测试的中文“困难案例”指标中,Fun-CosyVoice3.5表现抢眼,词错误率(Word Error Rate, WER)和说话人相似度(Speaker Similarity, SSIM),均为最佳。同时,因为优化了“困难案例”的发音,生僻字句错率由15.2%降低到5.3%。

  两款模型在语音准确率、说话人相似度、韵律自然度和音质方面提升显著,主要得益于模型在训练过程中的优化。在强化学习中通过使用DiffRO和GRPO,增加了对于时长和韵律多通道的奖励。DiffRO(Differentiable Reward Optimization)意为“可微奖励优化”,由阿里通义实验室提出,专门用于优化TTS模型;GRPO(Group Relative Policy Optimization)意为组相对策略优化,通过对比不同答案来判断优劣,得到奖励。GRPO还被用在Flow Matching(流匹配,将噪声分布转为真实数据分布)的强化学习中,为业内首次使用于声音克隆模型。

  此外,Fun-CosyVoice3.5所用的tokenizer帧率减半,提高了训练效率,并且首包延迟降低35%,大幅提升了实时交互体验。阿里发布两款语音新模型

“阿里发布两款语音新模型” 的相关文章

安达智能:部分产品近年有出口至欧盟部分成员国

  在互动平台回答投资者提问时表示,公司部分产品近年有出口至欧盟部分成员国,该部分业务收入在公司整体营业收入中占比非常低;在销售方式上财经热点,目前以直销为主。安达智能:部分产品近年有出口...

美元指数20日下跌

  衡量美元对六种主要货币的美元指数当天下跌0.41%,在汇市尾市收于98.642财经热点。截至纽约汇市尾市,1欧元兑换1.1712美元,高于前一交易日的1.1643美元;1英镑兑换1.3...

优机股份:融资净买入74.25万元,融资余额2331.83万元

  不对因该资料全部或部分内容而引致的盈亏承担任何责任。用户个人对服务的使用承担风险财经热点,东方财富对此不作任何类型的担保。优机股份:融资净买入74.25万元,融资余额2331.83万元...

我国已启动第二阶段6G技术试验

  1月21日,工业和信息化部信息通信发展司司长谢存在国新办新闻发布会上说财经热点,目前,我国5G标准必要专利声明量全球占比达42%;6G研发已完成第一阶段技术试验,形成了超300项关键技...

标准股份1月21日快速上涨

  盘中快速上涨,5分钟内涨幅超过2%,截至10点46分财经热点,报12.56元,成交1.17亿元,换手率2.74%。标准股份1月21日快速上涨...

京泉华1月21日快速回调

  盘中快速回调,5分钟内跌幅超过2%,截至10点48分,报30.45元,成交10.60亿元,换手率15.47%财经热点。京泉华1月21日快速回调...