因为他们的推测文字转WAV音频