Github code spaceを触ってみる。
github の適当なコードで、
Use this template ー> Open in a code space を押せば、code spaceで回せるようになる!
試しにObject-Centric OVD 触る。
demo.ipynbを回そうとすると、 cuda not available ...
機械学習のための GitHub Codespaces の概要 - GitHub Docs
これを見たらわかりそうだけど、まじめにやるとちょい時間かかる。
土日だけだと、まとまった時間がなかなか取れないから、結局、土日は論文をちょこちょこ読むのがベストな気がしてきた。
環境作りだけクリアすれば、あとは何とかなる気もするから、これを頑張りたいけど。
メモ:人間のコスパ AIのコスパ
人間の方がタスクによってはAIより安上がりになったりすること多くない?
農作業とかやることが多すぎて、AIがやるより人間がやるほうが安上がりの気がする。
ロボットの類って結構金がかかると思うし。
人間って、見たことないものでも物体を認識できるよね。
AIでやるにしても人間がやっていることの真似をする方向性が良いと信じるなら、
例えば、冷蔵庫に入っているにんじんは写真ではすごく判別が難しいけど、(i) 以前ニンジンを入れたなぁとぼんやり覚えていると、(ii) オレンジ色の部分がちょっと見えただけで、これはほぼ100%にんじんだってなる。
これをAIでやろうとすると、
(i) 以前ニンジンを入れたなぁ は過去の冷蔵庫の出入り情報
(ii) ニンジンを閾値を下げまくって検出を試みる。
でも、「冷蔵庫にニンジンが何個入っているか知りたい」という目的なら、(i) 過去の冷蔵庫の出入り情報が正確にわかっていたら十分だよなぁ、、、。
パッケージに入っているものは一般的な検出器だと難しい気がするけど。
今のAIに足りてないものは何かを考えるより、まだできそうだけど、されていないものを考えるのほうがよくね。LLMもそんな感じでやってみたら異常に良い結果になったってタイプな気がする。
CLIP お勉強:RegionCLIP
これのデモを
ここからできるので、遊んでみるついでに、どんなモデルか、論文
https://arxiv.org/pdf/2112.09106.pdf
とか解説記事を読んでみる。
CLIPは、ただの画像テキストペアの学習しかしていないので、物体位置についての情報は、CLIP 画像エンコーダーでは不十分らしい。どうでもいいけど、こういう問題設定のずれをdomain shiftと呼んでいるの気持ち悪い。ふつうdomain shiftと言ったら、問題設定固定で、データの分布が大きく違うのを言うんじゃね。
そこを解決したとか。
デモで、原神というゲームのスクショの物体検出を試したら、あまりうまくいかなかった。
冷蔵庫の写真で試したら、良い感じに、cabbage を検出してくれた。white pot も試したら行けた。
複数種類の物体検出するにはどうすればよいんだろうね。APIの説明がなさ過ぎて。というか、なんでtext入力して検索する形式なんだ、、。画像内の物体らしいものすべてを検出するなら不要じゃね。
What is Object Detection? - Hugging Face
では、DETRが使えるね。適当に画像突っ込んだら、爆速で、bottleが検出された。
冷蔵庫の中身ってぐちゃぐちゃしていて、パッケージで隠れて見づらいものもたくさんあるから、ある程度見覚えがないときついよね。