但是胜在均衡且有自知之明文字转WAV音频