抬起脸时已经完全进入了状态文字转WAV音频