最起码也处于中上等层次文字转WAV音频