基本上都是在中期后期文字转WAV音频