后者的决定往往都是最正确文字转WAV音频