还是要靠人工和机械瞄准文字转WAV音频