所以没办法理解人类的语言文字转WAV音频