而是因为他的口气和语速文字转WAV音频