我们就只能靠推测了文字转WAV音频