微软 AI 新技术:让你的头像照片动起来,并有感情地“讲话”

日期:2023-02-14 17:52:44 / 人气:216

越来越多的研讨标明,只需有足够多的语料库,人类的面部举措和语音行爲是可以同步的。两年前,卡内基·梅隆越来越多的研讨标明,只需有足够多的语料库,人类的面部举措和语音行爲是可以同步的。两年前,卡内基·梅隆大学的研讨人员曾宣布了一篇论文,叙说了一种将一团体的面部举措转移至另一团体的办法。而就在往年六月份的时分,三星的使用迷信家就引见了一种端对端的模型,可以将人头部特写中的眉毛、嘴巴、睫毛和面颊生成动画。仅仅几周后,Udacity 展现了一个可以从音频旁白中自动生成站立演讲视频的零碎。基于后面的研讨和打工,微软研讨团队在本周提出了一项技术。他们声称,这一技术可以提升传声头像动画的逼真度。在此之前,头部动画的生成需求明晰,绝对无噪声的音频以及中性的音调。而如今,研讨人员表示,他们的技术可以将音频序列分解成语音内容和背景噪声等要素,由此可以运用有噪声和“有感情颜色”的数据样本。雷锋网注:图片来源于 Microsoft众所周知,语音是具有差别性的。不同的人在不同的环境下运用同一个词,其继续性、振动幅度、语调等等都各不相反。除了语音内容方面,语音本身还承载着丰厚的信息,它可以提醒人的心情形态,身份(性别、年龄、种族)和特性等。现实上,微软研讨人员提出的技术是基于学习潜在显示的变自编码器(雷锋网按:variational autoencode,VAE)。VAE 可以将输出的音频分解成不同的表现方式,包括编码内容、表情以及其它变化的要素,在输出音频的根底上,从散布中采样一些内容表示序列,该序列连同输出的人脸图像一同被馈送到视频生成器停止面部动画处置。爲了训练和测试 VAE,研讨人员选取了三个数据集,辨别如下:GRID:这是一个视听语料库,每个语料库包括了 34 爲说话者的 1000 份录音;CREMA-D:包括了 7442 个影视片段,来自 91 位不同种族演员;LRS3:包括了超越 10 万个 TED 视频中的口语句子的数据库。研讨人员将 GRID 和 CREMA-D 的数据输出到模型中,让其辨认语音和情感表征,然后运用一对定量目标——峰值信噪比(PSNR)和构造类似度指数(SSIM)——来评价视频生成的质量。该研讨团队表示,就表现而言,他们的办法和其它明晰的、中性的口语表达办法在一切目标上都是一样的。并且他们留意到,这种办法不只可以在整个心情光谱上继续表现,还可以兼容一切目前最先进的传声头像办法。值得一提的是,其变种特异性的可学先验办法还可以扩展到其它语音要素,例如身份和性别,这些要素可以作爲将来打工的一局部探究。经过对乐音和心情音频样本停止测试,研讨人员验证了其模型,标明了在音频变化的状况下,该办法是优于目前已有的技术程度的。雷锋网注:本文编译自 KYLE WIGGERS 宣布于 venturebeat 上的文章。微软研讨效果:https://arxiv.org/pdf/1910.00726.pdf


作者:天富娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 天富娱乐 版权所有