我们只能互相依靠文字转WAV音频