所以我最初就推定文字转WAV音频