只能依靠着之前猜测的距离文字转WAV音频