他用的陈述的语气又是命令的口气文字转WAV音频