实际上他们很多程度上都是借助了自身和外物文字转WAV音频