如果把这种训练法交给当地人文字转WAV音频