我觉得他最多也就是支撑几个呼吸文字转WAV音频