极尽可能的将当时的场景描绘下来文字转WAV音频