基本上是在她手里的文字转WAV音频