而是判断影片的眼光和意识文字转WAV音频