甚至也能完成三个检测动作文字转WAV音频