确实是考虑了损耗文字转WAV音频