根据目前看到的情况进行着推理文字转WAV音频