然后在监控视频之中盯住他们文字转WAV音频