所以他们必须在彩排里投入更大的精力文字转WAV音频