但眼下只能靠经验来衡量给与的多少文字转WAV音频