不明白他为什么得出这个分析文字转WAV音频