所以只能在两个人的身上实验文字转WAV音频