【筑梦现代化共绘新图景·安徽担当】

2024-04-26 05:41
来源：安徽日报
作者：汪永安

　　近日，微软对其Azure AI语音服务进行了重要升级，新上线了9款更真实的AI语音。微软提升了AI语音的自然度，在语调、节奏和情感上更好捕捉了人类语音的细微差别，让合成的语音更加生动和真实，其逼真的效果引发大家的关注讨论。

　　但这一次微软并非领先者，记者4月15日从位于合肥高新区的科大讯飞获悉，早在2个月前，该公司就在讯飞星火V3.5发布会上，率先推出了超拟人语音合成技术，并搭载在讯飞星火App中开放给全民体验。其拟人度超过83%，体验下来它的声音流畅自然，表达已非常接近人类的真实声音。

　　普通人正常交流对话中会带有一定的语气、情感和口语化表达，也会出现重复、卡顿、叹气、呼吸、说错字词，还有吞音、轻声等习惯说法。考量超拟人语音效果，不仅要看说话的自然度、流畅度，也要看这些口语化和副语言的频率与细节是否更贴近真实，以及语音中的情感是否贴合说话内容等维度。

　　目前，微软上新的AI语音可以在Azure AI服务页面里进行试听和调用，科大讯飞超拟人合成在讯飞星火App和讯飞开放平台上均可体验和使用。

　　近日，有媒体以相同的文本对两者的超拟人合成技术进行了体验评测，发现微软和科大讯飞在超拟人合成的拟人度上相较传统语音合成效果都有了显著进步，克服了合成声音“板正”“一丝不苟”的“播音腔”问题；同时在停顿、语速变化等副语言上的表现也相当自然，“哈哈”“嗯”等常见的口语化词语也和说话内容进行了较好融合。

　　对比来看，微软上新的9款AI语音覆盖了更多语种和说话风格，说话的自然度和流畅度相对较好，但在语气词等口语化表达上稍显突兀；科大讯飞的超拟人合成在整体的拟人化程度上略胜一筹，交互和表达效果更生活化、也更自然，口语化词语的插入不突兀，遇到一些中英文混杂的词语，也能做到发音自然。

　　值得一提的是，科大讯飞超拟人合成在情感表达上表现更为突出。在输入表达不同程度开心的相关文字后，讯飞超拟人合成的效果能够根据程度不同展现出可感知的差别；而微软在情感表达上稍逊一筹，合成效果与普通语气基本没有差异。综合来看，科大讯飞的超拟人技术在拟人度与情感表达上更优。

　　今年1月30日科大讯飞发布超拟人合成时，也发布了最新的星火语音大模型，它可谓是让语音合成听起来更加自然和逼真的“杀手锏”。

　　它是如何做到的呢？首先，基于星火通用大模型的能力，来预测文本中的口语化现象、情感、停顿等细节信息，这对于传达说话者的真实感受非常重要；其次，星火语音大模型学习人类的口语化表达方式后，对通用大模型预测的口语化信息进行还原，从而极大提高了合成的拟人化效果。

　　近年来，讯飞在多语种语音合成应用、方言合成、合成语音情感上持续创新，并且推出全新语音合成系统SMART-TTS，实现多风格、多情感合成，能够根据需求对声音进行调节和创作。超拟人合成技术的率先上线和惊艳效果，背后是科大讯飞多年如一日的积累与突破。

　　万物互联时代，语音正在成为人机交互的主要入口。超拟人合成技术不仅能够提供更加自然流畅的交互体验，还能够通过模拟人类的情感和行为，为用户提供更加个性化和富有同理心的服务，将变革我们的人机交互体验。据了解，讯飞星火App已上线了超拟人合成技术，并将在车载、机器人、智能客服等领域推出落地应用。讯飞超拟人合成升级版本也会在近期推出，将进一步增强喜怒哀乐等各种类型的情感反馈能力。

　　据相关报告预测，全球生成式AI市场规模将从2022年的400亿美元，扩大至2032年的1.3万亿美元。中国生成式AI商业应用规模预计到2025年将达到2070亿元，未来五年的年均增速84%。超拟人技术作为生成式AI的重要表达方式，展现出巨大的市场潜力。

　　而在这一技术上，以科大讯飞等为代表的中国AI企业已经率先布局，实现了国际领先，有望在全球市场中占据重要地位。

编辑：毛书兵

【筑梦现代化 共绘新图景·安徽担当】

【筑梦现代化共绘新图景·安徽担当】