伪装目标检测论文阅读之Dual-SAM(CVPR-2024)

论文:link
code:code
Fantastic Animals and Where to Find Them:Segment Any Marine Animal with Dual SAM

摘要

  作为水下智能的重要支柱,海洋动物分割(MAS)涉及对海洋环境中的动物进行分割。以往的方法在提取长范围上下文特征方面表现不佳,并且忽略了离散像素之间的连通性。最近,Segment Anything Model(SAM)为一般的分割任务提供了一个通用的框架。遗憾的是,SAM是用自然图像训练的,不能从海洋图像中获得先验知识。此外,地对空导弹的单一位置提示对于事前制导来说是非常不够的。为了解决这些问题,我们提出了一种新的特征学习框架,称为Dual-SAM,用于高性能MAS。为此,我们首先引入SAM范式的双重结构来增强海洋图像的特征学习。然后,我们提出了一种多层耦合提示(MCP)策略来指导全面的水下先验信息,并通过适配器增强了SAM编码器的多层特征。随后,我们设计了一个扩展的融合注意模块(DFAM)来逐步整合SAM编码端的多层次特征。最后,我们没有直接预测海洋动物的面具,而是提出了一种Criss-Cross Connectivity预测(C3P)范例来捕捉离散像素之间的相互连接。使用双解码器,它生成伪标签,并实现对互补特征表示的相互监督,从而比以前的技术有了很大的改进。大量的实验证明,我们提出的方法在五个广泛使用的MAS数据集上取得了最好的性能。

1.介绍

  本文提出了一种新的特征学习框架Dual-SAM,用于高性能多智能体系统。图1显示了我们的灵感和优势。在技术上,我们首先利用SAM的范式引入双重结构,通过伽马校正操作来增强海洋图像的特征学习。同时,我们通过适配器增强了SAM编码器的多层次特性。在此基础上,提出了一种多层次耦合提示(MCP)策略来指导全面的水下先验信息的自动提示。随后,我们设计了一个扩展的融合注意模块(DFAM)来逐步整合SAM编码端的多层次特征。最后,我们没有直接预测海洋动物的面具,而是提出了一种Criss-Cross Connectivity预测(C3P)范例来捕捉离散像素之间的互连。该算法利用双解码器生成伪标签,实现了对互补特征表示的相互监督。与以前的标量预测技术相比,所提出的矢量化表示法具有显著的改进。大量的实验表明,我们提出的方法在五个广泛使用的MAS数据集上取得了最好的性能。
在这里插入图片描述
总结,贡献:
• 提出了一种新的海洋动物分割特征学习框架–Dual-SAM,该框架继承了SAM的能力,并自适应地融入了水下场景的先验知识。
•提出了一种多层次耦合提示(Multi-level Coupled Prompt)策略,通过自动提示来指导全面的水下先验信息
•提出了一种扩展的融合注意模块(DFAM)和Criss交叉连接预测来改善海洋动物的定位感知
•进行大量实验来验证所提出模块的有效性,方法在五个MAS数据集上实现了新的最先进的性能。

2.相关工作

2.1 Marine Animal Segmentation 海洋动物分割

  MAS面临着巨大的挑战,如可变光照、颗粒物、水浊度等。在过去的几十年里,大多数现有的方法主要利用手工制作的特征从技术上讲,基于能量的模型通常被用来预测海洋动物的二进制掩膜。虽然它们取得了很大的成功,但仍然存在一些关键的局限性,如对模糊的稳健性较差,边界不清晰等。随着深度学习的兴起,神经网络成为多智能体系统的首选模型。已经提出了各种网络体系结构来实现性能改进。例如,Li等人[36]提出了一种特征交互编码器和级联译码,以提取更全面的信息。Liu等人[40]结合了通道和空间注意模块来优化特征地图,以获得更好的对象边界。此外,Chen等人[5]提取多尺度特征并引入注意力融合块来突出海洋动物。Fu等人[15]设计了一种数据扩充策略,并使用暹罗结构来学习共享的语义信息。这些基于CNN的模型虽然有效,但缺乏捕捉复杂海洋图像的长期相关性和复杂细节的能力。
  最近,Vision Transformer(VIT)[8]展示了对多种数据类型的出色的全局理解能力。通过结构修改,它在各种分割任务中提供了显著的性能[58,70,71,87]。至于MAS,Hong等人[20]将基于Transformer的编码器应用于水下图像,并显示了有希望的动物分割结果。然而,Transformer面临的一个重大挑战是需要大量的训练数据。目前,还没有用于Transformer培训的超大规模MAS数据集。

2.2 Segment Anything Model for Customized Tasks

  最近,为了实现通用的图像分割,人们提出了SAM。它在大规模分割数据集上进行训练,并显示出零镜头传输能力。通过各种类型的提示,它可针对多种应用程序进行高效部署。然而,它在传输场景中表现出性能限制。此外,SAM解码器的简单性在处理细节感知的分割任务时是一个障碍。为了解决这些限制,人们提出了各种方法。一些作品采用适配器来向SAM注入特定于领域的信息。其他人选择了更具体的解码器结构来改善域感知。还努力使提示的生成自动化,以获得更好的适应性。尽管有这些进步,但由于使用自然图像进行训练,SAM并不能从特定领域获得足够的先验知识。此外,地对空导弹的单一位置提示对于事前制导来说是非常不够的。至于MAS,我们发现只有一项工作涉及微调水下场景的SAM。因此,在这项工作中,我们对SAM进行了深入的研究,以改进定制任务。
所以就是改善了SAM

3.方法

  主要由五部分组成:Dual-SAM Encoder(DSE)、Multi-level Coupled Prompt(MCP) 、Dilated Fusion Attention Module(DFAM),Cirss-Cross Connectivity Prediction(C3P)、Pseudo-label Mutual Supervision(PMS)
在这里插入图片描述

3.1 Dual-SAM Encoder

I β = I α γ , γ = lg ⁡ ( 0.5 ) − lg ⁡ ( m e a n I g r a y / 255 ) {I^\beta } = \sqrt[\gamma ]{{{I^\alpha }}},\gamma = \lg \left( {0.5} \right) - \lg \left( {mean_I^{gray}/255} \right) Iβ=γIα ,γ=lg(0.5)lg(meanIgray/255)
海洋图像: I α I_{\alpha} Iα 校正图像: I β I_{\beta} Iβ,其中 γ \gamma γ是伽马系数,平均灰度I是图像的灰度强度的平均值。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/604119.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

内存卡突然罢工?数据恢复有高招!

内存卡作为我们日常生活中常见的存储设备,广泛应用于手机、相机等设备中。然而,有时我们会遇到内存卡损坏打不开的情况,这时该如何应对呢?本文将为您详细解析内存卡损坏的原因,并提供有效的数据恢复方案,帮…

PyQt5的基本安装与使用

文章目录 1. 简介2.安装2.1.QtDisigner配置2.2 PyUIC配置2.3. PyRCC配置 3. 一个简单的PyQt5使用示例 1. 简介 PyQt5是一个用于创建交互式界面的Python库,它是基于Qt框架的Python绑定。Qt是一个跨平台的C框架,用于开发图形用户界面(GUI&…

4.26.7具有超级令牌采样功能的 Vision Transformer

Vision Transformer在捕获浅层的局部特征时可能会受到高冗余的影响。 在神经网络的早期阶段获得高效且有效的全局上下文建模: ①从超像素的设计中汲取灵感,减少了后续处理中图像基元的数量,并将超级令牌引入到Vision Transformer中。 超像素…

源代码加密的重要性

在数字化时代,企业面临的最大挑战之一是如何保护其核心数据不被泄露。企业源代码防泄密是指企业采取措施保护其软件或应用程序源代码不被未授权的人员获取、泄露或盗用的一种安全措施。源代码是软件的核心组成部分,其中包含了程序员编写的具体指令和算法…

MySQL深入理解MVCC机制(详解)

深入理解MVCC 1、MVCC定义 MVCC:Multi-Version Concurrency Control,多版本并发控制机制。 在mysql中,为了满足事务的四大特性之一的隔离性,就是当前事务中的查询的数据不受其他事务的增删改操作的影响,因此mysql主要是通过这个…

怎么解决端口被占用

目录 一、引言 二、解决方法 一、引言 最近用vscode写网页,老是遇见端口被占用,报错如下: listen tcp :8080: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted. 二、解决方法 1.换…

Apache DolphinScheduler 3.3.0 版本重磅更新提前看!

Apache DolphinScheduler 3.3.0版本终于要在万众期待中发布啦!本次发版将有重大功能更新,包括架构上的调整。 为了让广大用户提前尝鲜,社区特别准备了直播活动提前揭秘3.3.0版本中的重要更新,到时候你将会了解到这些信息&#xf…

苹果平板HOME键成历史,全面屏时代到来?2024平板电脑市场趋势分析

近期苹果公司在“放飞吧”发布会上推出了新款iPad Pro和iPad Air平板电脑,并下架了最后一款带有实体Home按键的iPad 9。这一变化标志着Home键在苹果iPad产品线中成为了历史,引起了不少网友的怀念和感慨。 与此同时,今年3月线上平板电脑市场迎…

分析:Palo Alto在从SASE向SASO演进中定位不佳

摘要 我们通过上一篇文章(Fortinet的愿景——超越SASE)中应用于Fortinet的相同框架来回顾Palo Alto Network在网络和网络安全方面的前景。 SASE涉及数据传输的第一英里。不过,随着SASE的发展,投资者还需要考虑中间和最后一英里。…

QLabel 如何同时显示图片和文字?

效果: align="top"表示图片和文字底部对齐。 img src=":/img/qrc_img.png"表示此图片被添加到qrc的相对路径。 完整: QString content =QString("<html><head/><body><p><img src=\":/img/qrc_img.png\"…

【linux kernel】linux内核hid触摸源码hid-multitouch.c剖析

文章目录 一、内核中通用hid触摸驱动二、probe过程剖析(1)hid_parse()函数(2)hid_hw_start()函数(3)hid_connect()函数三、hid-multitouch.c应用场景一、内核中通用hid触摸驱动 在linux内核中,为HID触摸面板实现了一个通用的驱动程序,位于/drivers/hid/hid-multitouch.c文件…

【高阶数据结构】图--邻接矩阵、邻接表、BFS、DFS、Kruskal、Prime

图--邻接矩阵、邻接表、BFS、DFS、Kruskal、Prime 一、图的概述1、概述&#xff08;纯理论部分&#xff09;2、邻接矩阵&#xff08;实现一个添加边的图&#xff09;&#xff08;1&#xff09;思路介绍&#xff08;2&#xff09;代码部分&#xff08;3&#xff09;测试部分 3、…

pytest教程-40-钩子函数-pytest_runtest_call

领取资料&#xff0c;咨询答疑&#xff0c;请➕wei: June__Go 上一小节我们学习了pytest_runtest_setup钩子函数的使用方法&#xff0c;本小节我们讲解一下pytest_runtest_call钩子函数的使用方法。 pytest_runtest_call 钩子函数在 pytest 调用测试函数&#xff08;即测试用…

JAVA栈相关习题3

1.将递归转化为循环 比如&#xff1a;逆序打印链表 // 递归方式void printList(Node head){if(null ! head){printList(head.next);System.out.print(head.val " ");}} // 循环方式void printList(Node head){if(nullhead){return;}Stack<Node> snew Stack<…

将大概的流程具体还是看源码

之前看源码的时候呢没有文字整理&#xff0c;想来还是写一个大概的流程吧&#xff0c;具体是无法用文字描述 spring源码真的yyds&#xff0c;数据结构 反射 父子类 接口…玩得溜到飞起 博大精深呐 后期不断喜欢ing&#xff01; springApplication.run方法 获取了一个Configu…

STC8增强型单片机开发——库函数

一、使用库函数点灯 导入库函数。 下载STC8H的库函数&#xff1a;&#x1f4ce;STC8G-STC8H-LIB-DEMO-CODE_2023.07.17_优化版.zip 来到库函数的目录下&#xff0c;拷贝以下文件&#xff1a; Config.hType_def.hGPIO.hGPIO.c 新建项目&#xff0c;将拷贝的4个文件放到项目目录…

【管理咨询宝藏96】企业数字化转型的中台战略培训方案

本报告首发于公号“管理咨询宝藏”&#xff0c;如需阅读完整版报告内容&#xff0c;请查阅公号“管理咨询宝藏”。 【管理咨询宝藏96】企业数字化转型的中台战略培训方案 【格式】PDF版本 【关键词】SRM采购、制造型企业转型、数字化转型 【核心观点】 - 数字化转型是指&…

代码审计-php篇之某CRM系统多处sql注入

&#x1f31f; ❤️ 作者&#xff1a;yueji0j1anke 首发于公号&#xff1a;剑客古月的安全屋 字数&#xff1a;3516 阅读时间: 35min 声明&#xff1a;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果…

科沃斯,「扫地茅」荣光恐难再现

作者 | 辰纹 来源 | 洞见新研社 科沃斯恐怕已经很难再回到被市场誉为“扫地茅”时的荣光了。 不久前&#xff0c;科沃斯发布2023年财报&#xff0c;报告期内营业收入155亿&#xff0c;同比仅增长1.16%&#xff0c;归母净利润6.12亿元&#xff0c;同比下降63.96%&#xff0c;直…

【北京迅为】《iTOP-3588开发板快速烧写手册》-第11章 救砖方法

RK3588是一款低功耗、高性能的处理器&#xff0c;适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用&#xff0c;RK3588支持8K视频编解码&#xff0c;内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…