Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问类似的端到端 MOT 方法是否有学习到物体的 appearance 呢 #41

Open
yarkable opened this issue Jan 25, 2025 · 1 comment

Comments

@yarkable
Copy link

首先感谢作者的开源!
最近本人读了一些 e2e mot 的文章,很多都说在 e2e 学习的过程中,网络隐式地学习到了外观信息,这在可视化 demo 中确实有一些展示(例如两个短暂交错的目标不会出现 idswitch),但是我发现并不总是如此,网络的预测似乎是依赖位置的先验关系(1. 假如人为构造一段视频,将同一个人在下一帧出现的位置放到比较远的地方,该目标会被赋予一个新的 id,而不是维持原有的 id;2. 依然构造一段视频,在下一帧同样的位置出现的是另一个很不像的目标,这个目标的 id 会保持和前一帧相同,而不是赋予新的 id)。请问在 motip 设计的时候有发现过这些问题吗?
我的猜想是,detr 输出的 embedding 本身可能就不含有与 appearance 相关的信息,因为其后面直接接了预测 box 和分类的 head(类间分类),导致这个 embedding 其实并不能区分出类内的差异。如果想要达到同时学习 appearance 的效果,可能要对结构进行比较大的改动

@HELLORPG
Copy link
Collaborator

HELLORPG commented Feb 1, 2025

这个问题可能已经超出了本仓库代码所包含的范围,并且这是一个很有深度的问题,所以可能我没有办法在这个 issue 中进行完全的阐述和回答,您可以发送邮件到我的邮箱([email protected])留下您的微信,我们可以进行详细的交流

但是整体上来说:

网络隐式地学习到了外观信息

我目前仍然认可这一点,因为众多可学习的运动估计算法(例如,DiffMOT,MotionTrack)都表明,在 DanceTrack 上,仍然没有一个运动估计模型可以很好的处理舞蹈中的运动预测,结果目前在 DanceTrack test 上还难以逾越 65 HOTA。因此,以此为据的话,我认为例如 MeMOTR、SambaMOTR 这样的 E2E MOT 方法,肯定是学习到了外观特征的,否则不会有超过 motion-based 方法的指标。
其次,类似的可视化在我们的 MeMOTR Figure 4中,我们对 query embedding 进行了可视化,我认为可以间接验证应该是学习到了部分的外观特征。

网络的预测似乎是依赖位置的先验关系(1. 假如人为构造一段视频,将同一个人在下一帧出现的位置放到比较远的地方,该目标会被赋予一个新的 id,而不是维持原有的 id;2. 依然构造一段视频,在下一帧同样的位置出现的是另一个很不像的目标,这个目标的 id 会保持和前一帧相同,而不是赋予新的 id)

关于这个部分,我并不知道你是如何构建这个伪造视频的,但是以我粗浅的理解,简单的构造视频可能会带来一些问题,例如,有可能目标的特征不连续(并不是真实的下一帧),从而导致 E2E MOT 对目标出现可以理解的误判(因为在设计中,E2E MOT 期望相邻帧中的目标具有连续帧间的特征平滑性,如果构造的目标特征出现明显突变,可能会使得数据分布偏离预期,从而造成严重的负面影响)。因此有可能是构造的视频偏离了实际应用(或训练数据),从而造成了模型的灾难性结果。

detr 输出的 embedding 本身可能就不含有与 appearance 相关的信息,因为其后面直接接了预测 box 和分类的 head(类间分类),导致这个 embedding 其实并不能区分出类内的差异
我认为不会不包含 appearance 的信息,只是含量的问题,而且我认为其包含的外观信息是一个不容忽视的部分。有如下原因:

  1. 在我们文章的 Table 4 中,无论是对比学习还是传统的 ReID 监督方式,其对于 embedding 的假设都是包含足够的外观信息,如果 DETR 的输出 embedding 中并没有包括外观信息的话,那么这两个监督范式应该无法取得合理的结果。
  2. DETR 的 embedding,除了 query init 之外,应该很难包括绝对的位置信息。因为在 Deformable DETR 中,visual feature 中的 pos 信息并不会传递到 detect query 中;同时,Deformable DETR 中的 bbox head 也一直都只能根据 ref_pts 输出相对位置偏移,而不是绝对位置信息。所以,我认为输出 embedding 中的绝对位置信息应该是非常有限的。

综上,我认为 DETR output embedding 中有足够的外观信息这一假设,应该是合理并且大概率存在的。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants