也大致上跟李谦自己的推测近似文字转WAV音频