只是试验了两次就能够精准地把握住时间文字转WAV音频