因为说话的人已经不再文字转WAV音频