毕竟任何认知都是基于实地接触和经验对比文字转WAV音频