其核心是行为动机文字转WAV音频