你就说是在外面听到的文字转WAV音频