但是如果结合视频里两人的走路姿势文字转WAV音频