**mutaguchi** @mutaguchi@fedibird.com · 2024年11月13日 13:26

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月13日 13:26

mutaguchi @mutaguchi@fedibird.com

mutaguchi @mutaguchi@fedibird.com

- 投稿

- フォロー中

- フォロワー

X: https://x.com/mutaguchi

write only

2023年 7月に登録

0 フォロー中 0 フォロワー

投稿投稿と返信メディア

新しいものを表示

2024年11月13日 13:26

mutaguchi @mutaguchi@fedibird.com

https://news.livedoor.com/article/detail/27542739/
「在籍VTuberの1人あたりの年間収益」なんて指標を出すのか…。
こんなの出さない方が良いと思うけどな。実際はそんな単純な話じゃないのに、視聴者がVTuber見た時に「あ、この人4億稼いでるんだ…」って思われるのっていいことなのか？

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 12:25

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 12:25

+ 2024年11月13日 12:25

mutaguchi @mutaguchi@fedibird.com

RAGが信用できないのって、LLMが持っている知識が出力に混ざることも一因だよね。この現象、Bing AIのときからあったし、GoogleのAIによる概要もこれ。

LLMの知識が全部正しいなら問題ないけど、そうじゃないから外部リソースを検索させるのがRAGなのに、「回答には自分の持ってる知識を絶対に使わず、すべて外部リソースから知識を得るようにせよ」とプロンプトを与えても、遵守してくれないのが現状…。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 12:14

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 12:14

+ 2024年11月13日 12:14

mutaguchi @mutaguchi@fedibird.com

このポストよく見たら、GPT-4o-miniではLLM自身が「2007年のサウスカロライナ・ゲームコックス・フットボールチームを指揮した監督」が「スティーブ・スパリアー」であることを知識として持っていて、その上で検索クエリを生成してるように見える。

つまり厳密にはRAGしてないってことになる。だとすると、ハルシネーション予防を狙ってRAGしてるのに、意味がない気がするなー。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 11:42

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 11:42

+ 2024年11月13日 11:42

mutaguchi @mutaguchi@fedibird.com

個人的には、（uncheckedなコンテキストで）int範囲外の浮動小数点数をintに変換したとき、想定外の値に変換されてたとしても、あんまり文句は言えないかなあ、と思った。まあプラスの数がMinValueになるのは直感的には、変ではある。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 11:21

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 11:21

+ 2024年11月13日 11:21

mutaguchi @mutaguchi@fedibird.com

あ、理解した。
元がプラスの値なのに、変換してマイナス（int.MinValue）になるのは直感的じゃないって話か。

それで元がプラスならプラス（つまり、int.MaxValue）になるように.NET9で仕様変更が入ったのね。
https://learn.microsoft.com/ja-jp/dotnet/core/compatibility/jit/9.0/fp-to-integer

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 11:08

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 11:08

+ 2024年11月13日 11:08

mutaguchi @mutaguchi@fedibird.com

https://x.com/ufcpp/status/1856641230056415402
これ、正しくはどうあるべきなのか分かってなかったり…
float→intでオーバーフローしてるだけではないの？

using System;
float a = 1E10f;
int b = (int)a;
Console.WriteLine(b);

とかでもbの値はint.MinValueになるが…

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 09:44

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 09:44

+ 2024年11月13日 09:44

mutaguchi @mutaguchi@fedibird.com

そういや試しにGPT-4oに「茨城県石岡市が、Starlink衛星の通信サービスエリアから除外されている理由はなんだと考えられますか？」をRAGあり/なしで聞いてみたけど、正しい回答はまったく得られなかった。（回答が得られないことを分かってやってますけどね）

RAGだと「茨城県石岡市 Starlink サービスエリア除外理由」をbingで検索してたけど、「質問内容をWeb検索クエリに変換する」のがLLMの限界だろうなぁという感じ。

石岡市はつくば市の近くだし、いろいろな観測施設があるし、なんか電波的な制約があって、それ関係かな？みたいな前提知識がないと、検索クエリすら作れないということ。でも我々人類がAIに求めるのは、これでしょ。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 09:27

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 09:27

+ 2024年11月13日 09:27

mutaguchi @mutaguchi@fedibird.com

個人的には、RAGで検索クエリーを組み立てるのは、7Bモデルとかでもこの研究みたいに工夫次第で何とか出来るとは思ってる。

問題は、クエリーを検索エンジンにかけて取得した結果解釈の能力の方だな。これは7Bモデルではだいぶ厳しいと思うし、なんならGPT-4oとかでもまだまだ怪しいと思う。Google検索の「AIによる概要」だって全然デタラメだしね。

結局、RAGった結果は信頼性がなく、使えないので、ソースを自分で見にいくことになる。なら別にRAGじゃなくて、普通に検索エンジンとしてヒットしたWebページの一覧を表示してくれればそれでいい、ってなる。

そしてLLMの性能が今後どれだけ上がっても、出力を信じられない（正しくソースを解釈している保証がない）ことに違いはない。

このへんが私がRAGに可能性を感じない理由だし、あと人類がAI使ってないのも似たような理由じゃないかな。結局、LLMの出力って役にたたんのよ…

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 09:16

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 09:16

+ 2024年11月13日 09:16

mutaguchi @mutaguchi@fedibird.com

https://x.com/ssig33/status/1856603789886926861
このRAGの研究、Llama2-7B/13B、Llama3-8Bとかの低パラローカルLLMがRAG出来るほど賢くないのを、何とかする手法なんじゃないのかな。

性能比較対象として上がってるのもプロプライエタリなLLMだとGPT-3.5 turboだけなんで、最近のGPT-4o-miniとかの高機能モデルは対象にしてなさそう。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 07:27

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 07:27

+ 2024年11月13日 07:27

mutaguchi @mutaguchi@fedibird.com

https://x.com/Mogyuchi/status/1856572969293885462
正解は、国土地理院石岡測地観測局の電波天文観測用受信機への影響を避けるため、でした。
SpaceX社のご厚意により、とあるけど、「電波天文業務受信設備指定」で優先権が得られてるのなら、SpaceXがこの領域でサービス提供しないのは義務なのではないか？とは思った。

ちなみに、地磁気観測所と石岡測地観測局の直線距離は4kmほどだった。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 05:14

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 05:14

+ 2024年11月13日 05:14

mutaguchi @mutaguchi@fedibird.com

まあ通常（ソフト）版と有効成分は全く同じだし、添加物も実は同じで、多分添加物の配合量が違うだけなんだけどね。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 05:09

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 05:09

+ 2024年11月13日 05:09

mutaguchi @mutaguchi@fedibird.com

アイリス５０クールが製造終了してしまった。おわった。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:49

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:49

+ 2024年11月13日 03:49

mutaguchi @mutaguchi@fedibird.com

それはそれとして、その考え方には同意は出来ないんだけどね。Gmailのシェアを考えたら、対応したほうが幸せになるユーザーが多いのは確かだから。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:36

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:36

+ 2024年11月13日 03:36

mutaguchi @mutaguchi@fedibird.com

https://x.com/ayu_littlewing/status/1856199457613963494
送信ドメイン認証を施す技術力が無いというなら恥かもしれないけど、「送信ドメイン認証されていないメールをフィルタするという、Gmailの独自仕様に当社は対応しない」という考えは別にあってもいいとは思う。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:29

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:29

+ 2024年11月13日 03:29

mutaguchi @mutaguchi@fedibird.com

ただ、今のところただの予想でしかない。理由は別にあるのかも。自主規制の可能性だって全然ある。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:25

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:25

+ 2024年11月13日 03:25

mutaguchi @mutaguchi@fedibird.com

https://x.com/mituru98248290/status/1856156119359729709
気象庁地磁気観測所の影響は、鉄道路線の電化方式以外に、衛星通信にも制約がかかるということかな？
だとすると結構、制約の影響はでかいんだな。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:13

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:13

+ 2024年11月13日 03:13

mutaguchi @mutaguchi@fedibird.com

最近は、すべての文章は日本語で書いたものをそのまま公開して、日本語が分からないなら、各自で母国語に機械翻訳して読んでね、という態度が一番正しいのではないか、とも思ってる。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:10

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 03:10

+ 2024年11月13日 03:10

mutaguchi @mutaguchi@fedibird.com

自分の書いた文章を翻訳AI（あるいはLLM）で翻訳したものをそのまま共有、公開、販売する行為には、おそらく著作権問題はないんだろうけど、無断学習で作られたAIモデルの出力物ではあるので、そこは確かに引っかかる。

昨今の生成AIブーム以前から、自分の書いた文章の機械翻訳文を公開することには引っかかりがある。その翻訳文は私が書いたんじゃないもんね。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 02:55

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 02:55

+ 2024年11月13日 02:55

mutaguchi @mutaguchi@fedibird.com

https://x.com/rootport/status/1856525495833374979
翻訳AIを使って出力した翻訳文をそのまま共有、公開、販売するなら、画像生成AI（特にimg2img）の生成物をそのまま共有、公開、販売するのと同じ問題、すなわち、出力物の著作権問題が生じると思うんだよね。

なので、「画像生成AIの生成物を共有、公開、販売するな。生成物を共有、公開、販売を行う目的で無断学習するな」という主張をしつつ、翻訳AIを自分のためだけに使用する、というならばダブルスタンダードにならないんじゃないかな、と思ってる。