确定两边大概能够看清楚面容文字转WAV音频