主要还是因为这个时间点十分敏感文字转WAV音频