这实际上就是通过不断的联系文字转WAV音频