它对人类近来的举动表示理解文字转WAV音频