并且将这些观察的碎片文字转WAV音频