这并不是说他原本就认识文字转WAV音频