最多也就是能够被动地接受一切文字转WAV音频