他们只是在那里观察文字转WAV音频