只能用眼角的余光观察文字转WAV音频