简单来说就是直播文字转WAV音频