最多也就是手指长文字转WAV音频