所以他们大多会选择文字转WAV音频