在镜头数和精度差不多的情况下文字转WAV音频