每句对话的变动都可能导致抉择的不同文字转WAV音频