Mitsua Diffusionが、権利的に大丈夫な画像だけで学習するっていうのはわかるんだけど、CLIPも許可を得た画像だけで学習するようにしたっていうのがちょっと気になっている

この場合のCLIPというのは画像分類モデル、端的にいうと何を写した写真とか、何を描いたイラストだとかわかるやつ。それでこの写真や消防車とか、背景に木が写ってるとか、そういうのを画像にタグ付けして学習する

フォロー

このCLIPを作る時点でも大量の画像で学習する必要があるんだけど、これは少なくとも日本の法律では著作者の許諾が必要ない分野。著作物として享受する目的じゃないから

Mitsua Diffusionは権利だけじゃなく心理的にもクリーンってとこを重きにおくからそういう判断になってるんだけど、この使い方がクリーンじゃないと後々すごく困る

もし自分が目が見えなくなった時に「ディズニーランドの写真で、ミッキーマウスが写っています」と読み上げて欲しいのであって、「お城のようなものが見えます。着ぐるみの写真です」とはなって欲しくないなあと

逆にそういう大手のやつはパッケージになってて、ちゃんと許可とって金払えば作れるけど、ネットミームとかのみんな知ってる画像の方がわけわかんない状態になるかもしれないけど

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。