これのデモを huggingface.co ここからできるので、遊んでみるついでに、どんなモデルか、論文 https://arxiv.org/pdf/2112.09106.pdf とか解説記事を読んでみる。 CLIPは、ただの画像テキストペアの学習しかしていないので、物体位置についての情報は、CLIP…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。