他们唯一做的一件事就是倾听文字转WAV音频