从周边的环境和人群都看的出来文字转WAV音频