最终产生的就是一个数的变化文字转WAV音频