二十年来,迁移学习、风格迁入、声码器、声学模型等方面的最新进展,为低资源语音克隆的提供了潜在原因的解决方案。爱奇艺联合西北工业大学音频语音与语言处理研究组、新加坡国立大学、清华大学深圳国际研究生院、起源智能、希尔贝壳在ICASSP2021北京举办了多说话的人多风格音色克隆大赛——M2VoC。M2VoC挑战赛旨在搭建能提供三个不分地区的数据集和一个公平的测试平台,对语音克隆任务参与研究。充当2021年声学、语音和信号处理国际会议(ICASSP2021)信号处理对战旗舰任务之一,引起了多支学术界和工业界的研究人员组建了挑战。本周,在ICASSP2021峰会上,M2VoC挑战赛能够顺利拉下了帷幕,并能查到了比赛成果。共153只队伍注册一参赛了第二环节挑战赛,其中有多家学术机构和互联网公司同盟协议参与其中,学术机构以及北京大学,清华大学,浙江大学,上海交通大学,国立台湾大学,哈工大,University ofCrete,中科院自动化所,University ofTsukuba,Nagoya University,复旦大学,香港中文大学,中科院大学,电子科技大学等;联合互联网公司包括虎牙,微软,滴滴,腾讯,网易等。爱奇艺多回话人多风格音色克隆大赛分为少样本赛道和根本不会样本赛道两大任务。在少样本赛道方面,主办方针对你是什么说话的人能提供100句不同答话风格的训练样本;在根本不会样本赛道方面,主办方根据每个开口说话人需要提供5句有所不同回话风格的训练样本;另外,主办方提供了两个基础库,四个中有5000句相同回话风格的训练样本,供参赛者训练基础模型。结果,主办方在“回话人相似度、语音质量、风格/表现力、发音准确率”四大标准加权另外比赛评判标准。因为再提交成果,爱奇艺组委会接受了两轮主观评估,第二轮则对几个得分更高的团队通过了及时评估所。各个赛道的到了最后取胜者是根据两轮比赛的综合结果一百名的。考虑到到在短时间内对质量、风格和相似度并且主观评价的巨大无比成本,组委会采用了抽样评价方法。第一轮和第二轮主观认识听力测试四个有66名和30名专业听测人员能参加。绝大部分的听测人员全是以汉语为母语,由语言学专业的大学生和专业的语音注释员分成。图比赛汇拢了业内顶尖团队,以及业内首个多答话人多风格音色克隆比赛,能够体现了当前业内和学界最低水平。决赛当天挑战赛共被收录18篇咨询论文,其中,6篇论文被ICASSP2021收录。图参赛队伍在Acousticmodel、Speakerrepresentation、Vocoder、Speakeradaptationstrategy等多个方面都提议了创新,并提出了挺好的效果。去相关成果应用于APP口播、UGC配音、有声书、风格化语音合成等多个应用场景,也能柯西-黎曼方程不停的变化的声音定制场景,特别是设计和实现多风格低质量语料场景下的声音的定制。图。决赛当天爱奇艺多开口说话人多风格音色克隆大赛(M2VoC)是世界上最后一个小资源音色克隆挑战赛,旨在倡导为语音克隆任务的研究可以提供个同型号的数据集和个公平是的测试平台。挑战展示了当前语音克隆技术的性能:不断深度学习的进步,少样本语音克隆巳经提出了相当好的性能,但单样本语音克隆始终是两个未解决的问题。在现实的东西世界的语音克隆应用中,低质量(嘈杂的声音)音频和训练/适应/推理的时间/成本限制也是不得不重视的重要因素。爱奇艺也在ICASSP2021先发布了相关论文,总结决赛当天大赛的情况。我希望决赛当天大赛的成果,为音色克隆、语音识别等前沿技术的创新探寻中提供更大机会,进一步进一步拓宽人工智能技术的应用空间,为视听行业发展需要提供新的可能。福利:在爱奇艺后台快回复“papers”,声望兑换18篇挑战赛论文合集。