他可是很清晰捕捉到文字转WAV音频