在其他人说话的当口文字转WAV音频