看着画面中夹杂在人群内的三个人文字转WAV音频