最终四者结合回归到的文字转WAV音频