CLIP お勉強：RegionCLIP - aru

これのデモを

ここからできるので、遊んでみるついでに、どんなモデルか、論文

https://arxiv.org/pdf/2112.09106.pdf

とか解説記事を読んでみる。

CLIPは、ただの画像テキストペアの学習しかしていないので、物体位置についての情報は、CLIP 画像エンコーダーでは不十分らしい。どうでもいいけど、こういう問題設定のずれをdomain shiftと呼んでいるの気持ち悪い。ふつうdomain shiftと言ったら、問題設定固定で、データの分布が大きく違うのを言うんじゃね。

そこを解決したとか。

デモで、原神というゲームのスクショの物体検出を試したら、あまりうまくいかなかった。

冷蔵庫の写真で試したら、良い感じに、cabbage を検出してくれた。white pot も試したら行けた。

複数種類の物体検出するにはどうすればよいんだろうね。APIの説明がなさ過ぎて。というか、なんでtext入力して検索する形式なんだ、、。画像内の物体らしいものすべてを検出するなら不要じゃね。

What is Object Detection? - Hugging Face

では、DETRが使えるね。適当に画像突っ込んだら、爆速で、bottleが検出された。

冷蔵庫の中身ってぐちゃぐちゃしていて、パッケージで隠れて見づらいものもたくさんあるから、ある程度見覚えがないときついよね。