目前设计的是只能坐两个人文字转WAV音频