而是盯着图上的各处注释细看文字转WAV音频