还是仅仅是作为片段和片段之间的衔接文字转WAV音频