最终以这种结构为基础文字转WAV音频