以下内容由马拉AI整理,今天为大家带来11月9日arXiv计算机视觉和模式识别相关论文
1、基因组:通过生长和重用ModulEs生成Neuro-symbOlic视觉推理GENOME:GenerativENeuro-symbOlicvisualreasoningbygrowingandreusingModulEs摘要:最近的研究表明,大型语言模型(LLMs)可以通过编程能力将语言转化为模块描述,从而实现强大的视觉推理结果,同时保持模型的透明度和效率。但是,这些模型通常会在给定任务的每个新实例的情况下详尽地生成整个代码片段,这是非常无效的。我们通过生长和重用模块提出了生成性神经符号视觉推理。具体来说,我们的模型由三个独特的阶段组成,模块初始化、模块生成和模块执行。首先,给定一个视觉语言任务,我们采用LLM来检查我们是否可以重用和扩展已建立的模块来处理这个新任务。如果没有,我们初始化任务所需的新模块,并指定这个新模块的输入和输出。之后,通过查询LLM创建新模块,以生成符合要求的相应代码片段。为了更好地了解新模块的能力,我们将少量训练示例作为测试用例,看看我们的新模块是否可以通过这些用例。如果是,则将新模块添加到模块库中以供将来重用。最后,我们通过使用新制作的可视化模块执行解析程序来评估模型在测试集上的性能,以获得结果。我们发现所提出的模型具有几个优点。首先,它在视觉问答和参考表达理解等标准任务上表现出色;其次,从一项任务中学到的模块可以无缝转移到新任务中;最后但并非最不重要的一点是,它能够通过观察一些训练示例和重用模块来适应新的视觉推理任务。链接: