它就相当于整个实验的基础资源文字转WAV音频