好在它们的目标都是寺庙文字转WAV音频