它们据此作出推测文字转WAV音频