只是第一轮的候选文字转WAV音频