只能是根据现场的痕迹来推断文字转WAV音频