只能在第二次找准光亮的时间把话说完文字转WAV音频