这样的答案是预期的文字转WAV音频