只是被动的在应承文字转WAV音频