所以这个提前量是很难把握的文字转WAV音频