他至少要用三分文字转WAV音频