他应该是先将我们文字转WAV音频