从他们的状态来看文字转WAV音频