第一个阶段是从文字转WAV音频