并且逐渐形成他的影像文字转WAV音频