就是将原主视角转移成文字转WAV音频