极限元推出AI虚拟人互动,实时变声技术显硬核实力
2020-04-21 14:02:31来源:民营经济网·民企动力
堵车了么?别急,志玲为你解忧……..
前方有违章摄像,赶着照相就别在这了,忒贵……..
AI已经渗透到生活中的方方面面,正在悄然的改变我们的生活。
人机交互是虚拟现实的核心技术之一,对推进虚拟现实广泛应用和提高用户的体验具有重要意义。极限元对此推出了针对泛娱乐整体解决方案。
1、AI虚拟主播解决方案
极限元AI虚拟主播基于少量的音视频数据即可快速生成主播形象,输入文本就可以生成具备同步口型、丰富面部表情及各类型动作的AI合成主播播报的音视频,结合语音识别、语义理解、语音合成、虚拟形象驱动等AI核心技术,通过手机APP、大屏一体机等终端展现形式,实现用户与虚拟客服之间的“面对面”互动交流、业务咨询、智能问答、服务导览。
▼ 方案构成 ▼
➤ 虚拟形象
支持卡通、真人虚拟形象,可半身、全身形象播报。
➤ 快捷定制、实时合成
自主研发的语音合成技术,可为形象定制专属音库,快速将文本内容转换成虚拟主播视频,实时播报。
➤ 表情、动作生成
实时处理面部口唇动作,真实自然生动。
通过语音内容驱动模型头部动作及身体动作。
➤ 多语言播报
支持中文、英文、粤语等多种语言播报。
➤ AI系统生成
虚拟主播系统,支持音频、视频实时快速导出,满足各种场景的内容自动化生产。
2、实时变声解决方案
实时变声技术可以通过提取原声语音中的内容信息,包括原声的节奏和情感,再结合特定人的音色进行转换结合,可以惟妙惟肖地复刻模仿特定人的声音,这种基于音色与内容分离的声音转换技术,实现了声音的cosplay,对用户本身的音色没有任何限制。
极限元推出了语音实时变声技术,是智能语音方面新的突破,语音变声不仅能实现说话人音色的逼真转换,而且还能将说话人的语速、停顿等韵律、情感、言语方式在所指定的人物角色逼真体现出来,在不同人的声音中切换自如实现自然的变声效果。
▼ 可实现以下功能 ▼
➤音色个性化定制:根据客户场景,灵活定制各类变声音色
➤多场景变声服务:针对变声需求,提供语音实时变声、非实时变声,灵活满足不同场景
➤高性能服务保障:语音公有云,提供高并发的云服务支撑
➤专属私有化部署:针对网络环境、安全保密性等特殊要求,提供客户专属的变声私有云部署
➤稳定技术接口:满足多种产品端接入需求,提供稳定技术接口,可灵活定制
如:不同角色变声为“太乙真人”
编辑
声音皮肤:不同角色的音色+动画角色的风格
如上图所示,比如在少儿教育有声读物制作领域,将儿童故事读物跟变声结合,例如将xxx故事书以太乙真人憨厚有趣的声音表现,只需要结合变声技术,就可以将故事书以太乙真人的口吻读出来,增强趣味性,激发学习欲望。
在直播领域,有些主播的声音存在不符合自身形象或者普通话不标准、带口音等问题,通过变声技术,可以把直播的音色变成有品质的音色,同时保留主播自身的语言风格特色。
极限元的该项技术除了提供云端在线服务,也已经可以集成到芯片设备中,实现本地化变声能力,在虚拟IP、游戏直播、专业客服、声音美化等领域有着丰富的应用空间。极限元语音变声能满足客户多种应用场景下实现趣味语音,让语音交互体验更加丰富。
3、说话人自适应解决方案
极限元说话人自适应解决方案在性能上发音更清晰,音色更逼真,韵律更自然,用户仅需数分钟左右即可完成录制,大幅度降低了合成音库定制门槛,全自动化处理与训练,即可拥有接近原声声音的个性化定制模型,快捷实现文本转语音功能,实现高度音色还原度、个性化。广泛应用到智能硬件、语音导航、机器人陪伴、有声读物等领域。
▼ 自适应合成流程 ▼
1.数据自动采集标注,运用asr对录音进行标注与检查,判断数据质量;
2.说话人特征空间建模及声学模型自适应,定制个性化模型;
3.神经网络声码器自适应;
4.模型训练完成的自动判断与评估;
▼ 具有以下优势 ▼
极限元孵化于中国科学院,截止目前已与腾讯、360、搜狗、汉王、陌陌、快手、中国移动、网信办等国内外企业、政府职能部门建立合作,累计服务项目数百项,涵盖公共安全、教育、娱乐、金融、医疗、智能硬件等领域;随着 AIOT 与 5G 的不断融合,语音作为人机交互的基础,我们可能将更多的技术融入相应的设备里,形成多元化的产品体系。增加个性化定制的交互场景,实现“千人千面”的体验。也将语音变声、AI合成主播技术、说话人自适应等与行业结合,运用到媒体、教育、内容制作、旅游等场景,将会带来更大的价值想象空间。
责任编辑:张富强
免责声明:本文仅代表作者个人观点,与民营经济网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有问题,请联系我们!