但他的选择往往是后一种文字转WAV音频