同时也是注意周围的环境文字转WAV音频