实际上我们就是在原地打转文字转WAV音频