一方面是为了尝试捕捉机会文字转WAV音频