但实际上他们只是旁听文字转WAV音频