而是将他们放在同一个程度上文字转WAV音频