都是通过分成两半的文字转WAV音频