他们需要足够的灵活性文字转WAV音频