考虑的是信息的可靠文字转WAV音频