考虑到时间比例的问题文字转WAV音频