整个行程分为三段文字转WAV音频