其实他说的就是他自己文字转WAV音频