所以他根本不用多考虑文字转WAV音频