其实是提前搞的文字转WAV音频