You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
网络的预测似乎是依赖位置的先验关系(1. 假如人为构造一段视频,将同一个人在下一帧出现的位置放到比较远的地方,该目标会被赋予一个新的 id,而不是维持原有的 id;2. 依然构造一段视频,在下一帧同样的位置出现的是另一个很不像的目标,这个目标的 id 会保持和前一帧相同,而不是赋予新的 id)
关于这个部分,我并不知道你是如何构建这个伪造视频的,但是以我粗浅的理解,简单的构造视频可能会带来一些问题,例如,有可能目标的特征不连续(并不是真实的下一帧),从而导致 E2E MOT 对目标出现可以理解的误判(因为在设计中,E2E MOT 期望相邻帧中的目标具有连续帧间的特征平滑性,如果构造的目标特征出现明显突变,可能会使得数据分布偏离预期,从而造成严重的负面影响)。因此有可能是构造的视频偏离了实际应用(或训练数据),从而造成了模型的灾难性结果。
首先感谢作者的开源!
最近本人读了一些 e2e mot 的文章,很多都说在 e2e 学习的过程中,网络隐式地学习到了外观信息,这在可视化 demo 中确实有一些展示(例如两个短暂交错的目标不会出现 idswitch),但是我发现并不总是如此,网络的预测似乎是依赖位置的先验关系(1. 假如人为构造一段视频,将同一个人在下一帧出现的位置放到比较远的地方,该目标会被赋予一个新的 id,而不是维持原有的 id;2. 依然构造一段视频,在下一帧同样的位置出现的是另一个很不像的目标,这个目标的 id 会保持和前一帧相同,而不是赋予新的 id)。请问在 motip 设计的时候有发现过这些问题吗?
我的猜想是,detr 输出的 embedding 本身可能就不含有与 appearance 相关的信息,因为其后面直接接了预测 box 和分类的 head(类间分类),导致这个 embedding 其实并不能区分出类内的差异。如果想要达到同时学习 appearance 的效果,可能要对结构进行比较大的改动
The text was updated successfully, but these errors were encountered: