主要还是从外部文字转WAV音频