就直接否定了他的假设文字转WAV音频