自去年11月在乌镇互联网大会上,全球首个AI合成主播一经发布掀起了全球媒体和人工智能领域的广泛热议。仅仅过去3个月,AI合成主播再次宣布升级到2.0版。
2月19日,在新华社新媒体中心与搜狗公司战略合作签约仪式上,搜狗公司与新华社新媒体中心联合发布了全球首个站立式AI合成主播,新的AI合成主播将从过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”,标志着“搜狗分身”技术再次取得突破。据悉,最新推出的站立式AI合成主播将参与2019年全国“两会”的报道,并将在搜狗搜索、输入法等资讯平台上与用户见面。
“以AI合成主播为代表的人工智能创新,必将开拓媒体生产端的无限视野,成为大幅提升新闻生产效率、传播效率和新闻价值的有效手段。”现场,搜狗公司CEO王小川表示,“AI合成主播”的升级产品,标志着双方的合作将进入一个新的发展阶段。通过战略协同,发挥各自优势,整合优质资源,技术创新上求真务实,在探索媒体融合发展之路上持续做出新作为。
“坐着播新闻”升级成“站立式播报”
“大家好,我是由新华社和搜狗公司联合培育的AI合成主播,从今天起,我从桌子后面走到了台前,由过去的‘坐着播新闻’升级成‘站立式播报’,而且丰富了手势、优化了表情,增加了更为丰富的神态和肢体动作。升级后的我将为您带来更好的新闻体验……”现场视频中,在场的与会人员见证了升级版的AI合成主播,这次升级版的主播无论是从神态,还是动作方面都有了明显改进,他从最初的坐着播新闻变成站立式播报,形态更加逼真。
回顾三个月前,也就是在2018年互联网大会期间,搜狗与新华社联合发布的全球首个AI合成主播初次亮相,引起了全球传媒业和人工智能领域的极大关注。在开幕当天,“AI合成主播”创造性地“克隆”出与真人主播拥有同样播报能力的“分身”。而随着“AI合成主播”的发布,搜狗人工智能的核心技术“搜狗分身”也终于浮出水面,成为大会开幕日的亮点之一。
当时,王小川表示,“AI合成主播”是搜狗人工智能核心技术“搜狗分身”的一次重要实践,更是人工智能领域的又一次突破与创新。该技术能够利用搜狗的AI能力,从图像表情、声音语言习惯、逻辑思维等层面对AI进行拟人化训练,然后克隆制造人类的AI分身,进而帮助人类提高信息表达和传递的效率。
据介绍,三个月来,首批入职新华社的一中一英两位AI合成主播,已生产3400余条新闻报道,累计时长达10000多分钟,参与了包括第五届世界互联网大会、首届进博会、2019春运、春节等若干重要报道,成为中国人工智能与传媒业大胆融合并付诸规模化应用的典型案例。
在新华社副社长刘思扬看来,当前,随着网络信息技术的快速发展,媒体格局、舆论生态、传播方式正在发生深刻变革,技术在媒体融合发展中的引领作用日益凸显。AI合成主播大幅提升新闻视频生产效率的重要举措。
由“搜狗分身”技术打造的初代AI合成主播,这项技术让机器首次做到逼真的模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,创造出人类的AI分身,进而帮助人类提高信息表达和传递的效率。王小川介绍,与新华社的合作是搜狗分身技术在传媒业的首次应用,它对真人主播声音、唇形、表情动作等特征进行高效提取,通过语音合成、唇形合成、表情合成以及深度学习等技术,创造出具备和真人主播一样播报能力的AI合成主播,以实现仅需文本而无需人工干预自动生成视频的高效准确的新闻生产,与一些人机配合下的虚拟形象展示有着本质区别。
而搜狗此次带来的全球首个站立式AI合成主播,将在声音、嘴唇动作和表情之外,利用“搜狗分身”技术继续赋予AI合成主播肢体语言的能力,让AI合成主播更加智能逼真。
据了解,新版的AI合成主播采用了“搜狗分身”领先的wavernn波形建模技术,可以实现逼真的语音合成效果,让AI的声音更具有真实情感和表现力。而在图像生成方面,新版的AI合成主播实现了更加逼真的表情生成、自然的肢体动作以及嘴唇动作预测等能力,完成了站立并可以做出肢体动作的主播形象,进一步提升了合成主播的表现力,保持了搜狗在这一领域的全球领先。
“搜狗分身”技术可复制不同类型主播
随着“搜狗分身”技术能力的不断提高,AI合成主播的定制周期也大为降低,合成效果和稳定性也有着显著提升。仅靠少量用户真实音视频数据,即可快速定制出高逼真度的分身模型,帮助媒体在融媒体转型、新闻时效性、跨语种传播能力等领域升级。
此次发布会同时发布的全球首个AI合成女主播,正是“搜狗分身”技术持续复制不同类型、不同特点AI合成主播能力的一个体现。会上,全球首个AI合成女主播新小萌也来到现场,她表示,将会在今年全国“两会”期间与大家见面,她和她的搭档将为大家带来更好的新闻体验。
而值得注意的是,从“AI合成主播”正式成为新华社报道队伍中一员的那一刻起,TA就同其他主播一起,为读者带去权威、及时、准确的中英文新闻资讯。但与“真人”主播不同的是,“AI合成主播”竟然开了“外挂”!“真人”主播一天工作8小时,但“分身”能够不知疲倦地工作24小时!只要小编们将文本输入系统,TA们就能随时工作,并且一直工作下去……
在行业人士看来,无论是在日常报道中提升电视新闻的制作效率,降低制作成本,还是在突发报道中快速生成新闻视频,提高报道时效和质量,“AI合成主播”在不同的新闻场景运用中都拥有着不可限量的未来。目前,不仅中文“AI合成主播”实力“上岗”,同时还有以“联接中外、沟通世界”为使命的英文“AI合成主播”。
此外,据了解,这并不是新华社首次在新闻媒体领域引入人工智能技术,早在2015年,新华社就推出可以批量编写新闻的写作机器人“快笔小新”,这一机器人已经在体育、财经领域得到应用;同年,新华社组建了国内首个新闻无人机编队,用于新闻航拍;2017年12月,新华社又推出媒体大脑(智能媒体生产平台),并在今年6月推出媒体大脑2.0。
而此次与搜狗公司共同研发的“AI合成主播”,也将是新华社在智媒体时代的又一次尝试。根据搜狗和新华社达成的战略合作协议,未来双方还将在AI合成主播领域展开长期合作,更多的AI合成主播将不断涌现,而这些主播播报的新闻也将会通过新华社客户端、新华社微信公众号、CNC等平台与观众见面。可以预见,AI合成主播注定会成为AI时代信息资讯传播链条最重要的一环。
“搜狗分身”技术的无限应用想象
“搜狗分身”技术让我们切实看到,机器以更逼真自然的形象呈现在用户面前,而不是冷冰冰的“机器人”。王小川介绍,作为AI合成主播的技术核心,“搜狗分身”技术未来还将应用于娱乐、医疗、健康、教育、法律、金融等多个领域,通过提供个性化的行业解决方案,为不同职业赋能,从而提升整个社会的信息生产力,用AI科技来让人类生活变得更加美好。
目前,语音技术及图像处理技术带来了拥有强交互能力的虚拟助手。行业预测,新华社引入AI合成主播很可能只是一个开始,未来各行业中都会引入类似虚拟助手,而在未来这些重复性工作被取代后,在这类工作中,人类更多可能会充当两类角色:一类是培训师的角色,为这些虚拟助手提供形象及语音原型,为虚拟助手提供更多内容素材,提升虚拟助手的精准度和工作效率;另外一类是监控及维护工作,在机器发生错误或宕机时人为做出及时调整,以加强机器的容错率。
据了解,该技术包含语音合成和图像生成两大引擎,能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型,让机器以更逼真自然的形象呈现在用户面前。
随着近年来语音技术的进步,语音识别率不断突破,现在主流语音系统的识别能力都能达到98%以上,搜狗在Blizzard Challenge 2018(语音合成国际大赛)中获得可懂度和语音停顿两项子任务全球第一;另外,搜狗分身技术能够自动生成语音、表情、唇动等信息完全一致的自然视频。据搜狗官方称,相关视频已达到商用级别,在业内尚属首次。
而值得关注的是,搜狗分身技术的应用场景非常广泛,可以涵盖需要人类参与的众多内容表达场景,例如新闻播报、虚拟教师、虚拟医生、虚拟客服等。在解放行业生产力的同时,“搜狗分身”技术给予用户更好的个性化音视频效果,用AI科技来切实的提高人们的生活体验。
在谈到关于合成主播和分身技术的未来期待,王小川曾表示,搜狗将会继续秉承搜狗的使命,进一步探索“搜狗分身”的边界,将“搜狗分身”技术逐步应用到中国与世界各国家跨语言交流场景中去,助中国走向世界,让世界更了解中国,为“一带一路”倡议下的国际合作提供帮助。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。