如果是让外面的人里的场景的话文字转WAV音频