所有注意力都放在音准上文字转WAV音频