CLIP お勉強:RegionCLIP
これのデモを
ここからできるので、遊んでみるついでに、どんなモデルか、論文
https://arxiv.org/pdf/2112.09106.pdf
とか解説記事を読んでみる。
CLIPは、ただの画像テキストペアの学習しかしていないので、物体位置についての情報は、CLIP 画像エンコーダーでは不十分らしい。どうでもいいけど、こういう問題設定のずれをdomain shiftと呼んでいるの気持ち悪い。ふつうdomain shiftと言ったら、問題設定固定で、データの分布が大きく違うのを言うんじゃね。
そこを解決したとか。
デモで、原神というゲームのスクショの物体検出を試したら、あまりうまくいかなかった。
冷蔵庫の写真で試したら、良い感じに、cabbage を検出してくれた。white pot も試したら行けた。
複数種類の物体検出するにはどうすればよいんだろうね。APIの説明がなさ過ぎて。というか、なんでtext入力して検索する形式なんだ、、。画像内の物体らしいものすべてを検出するなら不要じゃね。
What is Object Detection? - Hugging Face
では、DETRが使えるね。適当に画像突っ込んだら、爆速で、bottleが検出された。
冷蔵庫の中身ってぐちゃぐちゃしていて、パッケージで隠れて見づらいものもたくさんあるから、ある程度見覚えがないときついよね。