URL:
NAME: TokenPose: Learning Keypoint Tokens for Human Pose Estimation
AUTHOR: 清华,旷视
YEAR: 2021.4
PUBLISHED: ICCV
TAG: ((620602d4-e403-40ec-9508-dba5cdc03e26)), ((62064c08-e692-41af-a9e5-d5b1dead5872))
CODE: https://github.com/leeyegy/TokenPose
IN A WORD:

why

CNN网络缺乏显式学习关键点联系的能力。所以本文想借用Transformer的全局能力突出关键点。

what

image.png
这里画得是利用CNN划分patch到1D的特征向量,但是文中说的是使用ViT的方式来生成patch的,有歧义,但是问题不大。
同样需要进行位置编码。有一个问题,好像没有像ViT一样增加cls token。之后网络额外增加了keypoint token,长度与每个patch的长度是一致的。
最后网络的输入是{[visual, keypoint]}的组合。每个Transformer Layer包括一个多头注意力模块和MLP模块。
给人的感觉类似于将模板匹配了。

难点

  1. 如果构建关键点patch
  2. 这个CNN到底和ViT有啥关系