而是反复观察文字转WAV音频