尽管镜头只是给到肩膀以上文字转WAV音频