其实是为了探测出文字转WAV音频