只能勉强从服色上区分文字转WAV音频