aru_iwaの日記

Github code spaceを触ってみる。

github の適当なコードで、

Use this template　ー＞　Open in a code space　を押せば、code spaceで回せるようになる！

試しにObject-Centric OVD 触る。

demo.ipynbを回そうとすると、 cuda not available ...

機械学習のための GitHub Codespaces の概要 - GitHub Docs

これを見たらわかりそうだけど、まじめにやるとちょい時間かかる。

土日だけだと、まとまった時間がなかなか取れないから、結局、土日は論文をちょこちょこ読むのがベストな気がしてきた。

環境作りだけクリアすれば、あとは何とかなる気もするから、これを頑張りたいけど。

メモ：人間のコスパ　AIのコスパ

人間の方がタスクによってはAIより安上がりになったりすること多くない？

農作業とかやることが多すぎて、AIがやるより人間がやるほうが安上がりの気がする。

ロボットの類って結構金がかかると思うし。

人間って、見たことないものでも物体を認識できるよね。

AIでやるにしても人間がやっていることの真似をする方向性が良いと信じるなら、

例えば、冷蔵庫に入っているにんじんは写真ではすごく判別が難しいけど、(i) 以前ニンジンを入れたなぁとぼんやり覚えていると、(ii) オレンジ色の部分がちょっと見えただけで、これはほぼ100%にんじんだってなる。

これをAIでやろうとすると、

(i) 以前ニンジンを入れたなぁ　は過去の冷蔵庫の出入り情報

(ii) ニンジンを閾値を下げまくって検出を試みる。

でも、「冷蔵庫にニンジンが何個入っているか知りたい」という目的なら、(i) 過去の冷蔵庫の出入り情報が正確にわかっていたら十分だよなぁ、、、。

パッケージに入っているものは一般的な検出器だと難しい気がするけど。

今のAIに足りてないものは何かを考えるより、まだできそうだけど、されていないものを考えるのほうがよくね。LLMもそんな感じでやってみたら異常に良い結果になったってタイプな気がする。

CLIP お勉強：RegionCLIP

これのデモを

ここからできるので、遊んでみるついでに、どんなモデルか、論文

https://arxiv.org/pdf/2112.09106.pdf

とか解説記事を読んでみる。

CLIPは、ただの画像テキストペアの学習しかしていないので、物体位置についての情報は、CLIP 画像エンコーダーでは不十分らしい。どうでもいいけど、こういう問題設定のずれをdomain shiftと呼んでいるの気持ち悪い。ふつうdomain shiftと言ったら、問題設定固定で、データの分布が大きく違うのを言うんじゃね。

そこを解決したとか。

デモで、原神というゲームのスクショの物体検出を試したら、あまりうまくいかなかった。

冷蔵庫の写真で試したら、良い感じに、cabbage を検出してくれた。white pot も試したら行けた。

複数種類の物体検出するにはどうすればよいんだろうね。APIの説明がなさ過ぎて。というか、なんでtext入力して検索する形式なんだ、、。画像内の物体らしいものすべてを検出するなら不要じゃね。

冷蔵庫のデモ

What is Object Detection? - Hugging Face

では、DETRが使えるね。適当に画像突っ込んだら、爆速で、bottleが検出された。

冷蔵庫の中身ってぐちゃぐちゃしていて、パッケージで隠れて見づらいものもたくさんあるから、ある程度見覚えがないときついよね。

理論物理をやっていた人間が、機械学習関係で民間企業に入社した

入社して、論文の読み方について、ちょっとしたカルチャーショックを受けたので、メモ。

理論物理だと、多少古くても重要な論文を徹底的に理解しつくすことが重視されているたけど（自分が特に基礎的な研究をやっていたからかも？）、機械学習の分野では古くて重要な論文はざっと見て、新しい重要そうな論文を、必要な部分だけ読むという感じ。

githubとかで、すでにあるコードを再利用すれば、古い研究はそこまで理解しなくても利用できるからというのもあるかも。

あと、なぜこのような計算結果になるかについて、そこまでまじめに考えていない感じがする。