【太平洋科技快讯】近日,微软公司宣布其Azure AI语音服务新增了一项创新功能——Text to Speech Avatar,该功能为开发者提供了将文本转换为自然语音视频的能力,该功能突破性地将文本直接转换为具有人类自然声音的说话视频。这一技术利用了Azure AI的文本转语音引擎,使得虚拟人物在视频中呈现出逼真的说话效果,并且该服务的输出视频质量高达1920 x 1080分辨率,每秒25帧,确保了视频的流畅性和清晰度。
为了满足不同场景的需求,微软提供了多种预设的虚拟形象。这些形象可以根据用户喜好进行选择,进一步提升视频的个性化程度,开发者可通过批量合成API,实现文本到语音虚拟形象视频的异步或实时合成。这一功能大大提高了内容生产的效率。
Speech Studio内置的内容创建工具,让用户无需编写代码即可轻松制作视频内容,降低了技术门槛,而借助Speech Studio的实时聊天头像工具,用户可以与虚拟形象进行实时对话,为在线交流带来全新体验。
该服务按视频长度收费,价格合理。目前,Text to Speech Avatar功能已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区上线,目前来看这项技术的应用前景广阔,有望在客户服务、在线教育、市场营销等多个领域发挥重要作用。