同时配合人类的指令文字转WAV音频