这时候一般有两个回答文字转WAV音频