也就是说彼此之间是存在代沟的文字转WAV音频