因为能够做决定的是观众文字转WAV音频