是很清楚残缺规则就得越多越利于推演文字转WAV音频