这也是因为他们始终坚持认为文字转WAV音频