就肯定会考虑很多文字转WAV音频