第二层的比例为100文字转WAV音频