这是要炼化他们的节奏文字转WAV音频