所以他们两个是不会直接和我对话的文字转WAV音频