Audiokinetic 和 ReadSpeaker 很高兴能将 speechEngine 深度集成到 Wwise 管线中,以便开发者在游戏中充分运用高效且灵活的设备端文本转语音功能。作为跨平台解决方案,speechEngine for Wwise 可无缝集成到游戏开发工作流程中。
借助 speechEngine 的运行时处理能力,开发者可完全控制所生成的语音,实现游戏内文本到语音的实时转换。无论是想通过 UI 旁白和音频描述增强无障碍性,还是为多人互动添加语音抑或是构建叙事体验,speechEngine 都能帮助开发者在游戏中添加动态生成且毫无违和感的语音。
设备端处理
speechEngine 的优势在于其设备端处理能力。借助基于 CPU 的计算框架,我们可以在设备本地合成语音。也就是说,在整个处理过程中都不需要连接网络。利用优化的推理算法和轻量级模型,speechEngine 可在单个 CPU 线程中快速生成语音。同时,我们的解决方案占用空间很小,每个语音引擎只需约 10-15 MB 内存。而且,在各种平台上都可以使用,非常方便进行跨平台部署。
设置、导出和动态调整
通过为 Wwise 开发的 speechEngine 集成包,可直接将语音控制参数添加到设计工具界面来对语音特征实施微调,并利用 Wwise 提供的各种效果器进一步根据需要对语音进行自定义。在导出到 SoundBank 时,可在运行时控制语音引擎。只需通过 Wwise SDK 向插件发送文本输入并播放语音,speechEngine 就会立即诵读文本。另外,还可利用 RTPC 对音高、语速等进行控制。若要实现更加精细的控制,可将语音合成标记语言 (SSML) 用作文本输入来做进一步的自定义。
语音合成标记语言 (SSML)
SSML 允许进一步根据需要自定义文本的诵读方式。利用 SSML 的简单标记语言语法,可实现各种效果(比如强调语音的某个部分)。就像下面的例子一样:
示例 1:"Listen carefully!"
<emphasis level=”strong”>Listen carefully!</emphasis>
KaylaMollySophie |
|
示例 2:插入停顿
We are in dangerous territory <break time=”200ms”> proceed carefully from here on
KaylaMollySophie |
|
示例 3:改变对文本的解读方式
<say-as interpret-as="characters">wasd</say-as>
KaylaMollySophie |
|
示例 4:按照音素拼读单词
Hello <phoneme alphabet="ipa" ph="wɜːld">world</phoneme>
KaylaMollySophie |
|
有关 SSML 的详细信息,请参阅 W3C 官方规范:https://www.w3.org/TR/speech-synthesis/#S3.2.3
语音库
ReadSpeaker 提供各种语音选择,语音库中有 40 多种语言的超过 115 种语音。初始版本的 speechEngine for Wwise 插件支持 10 种语言和 12 种语音。在未来版本中,会提供对更多语言和语音的支持。
您打算用 speechEngine 做什么?
欢迎广大游戏开发者探索 speechEngine for Wwise 的强大功能。必要时,不妨通过 Discord 与我们联系,或者给我们发送电子邮件 (gaming@readspeaker.com)。
ReadSpeaker 致力于提供符合伦理的人工智能语音解决方案。点击此处了解他们在游戏领域中实现伦理 AI 语音的方法。
评论