聞かれていない述懐
僕ははてなではダイアリー/グループ/ブックマークがメインだった。はてなハイクは最初の数ヶ月しかつき合っていない。
#思いついた人名
萩尾 桜 (はぎお・さくら)
ギリシャ語とラテン語で二重に神聖。
Fediverse網
ActivityPub目
Mastodon科
Fedibird属
Fedibird
部屋の形は五角形 昔住んでいた大学宿舎でのアート展示へ行く(傑作選) https://dailyportalz.jp/kiji/university-lodgings-with-pentagonal-rooms
https://news.mynavi.jp/series/syasyokuki/ 雪朱里さんが写植開発の話の連載をしていると聞いて見つけた。二年前からやってたのか。
うちのブラウザにはなぜかいつまでもこの商品の広告が居座っています。 https://www.leicabiosystems.com/ja-jp/research/vibratomes/
谷川俊太郎の詩で少し前に見て衝撃を受けたのがこれ。 https://plaza.rakuten.co.jp/waterisland/diary/200511210000/
Googleのサーチアルゴリズムが漏洩。大事件だ、ますます検索環境が悪化してしまう可能性が出てきたではないか
Googleのサーチアルゴリズムが漏洩。
さすがにこの規模のリークは歴史上、初めてのことだと記憶しています。
そして、Google自身は否定していたもののSEO業界では長年疑われていたアルゴリズムの数々が実在していたことも明らかになりました。
2,596個のモジュール、計14,014個のランキング特徴量。
以下、主なものを解説していきます。
1. ドメイン権威
Googleの公式見解は「我々はドメイン権威のようなものは持っていない」というものだったが、siteAuthorityというfeatureの存在が確認された。
2. クリック
これもGoogleの公式見解と異なり、GlueやNavBoostというランキングシステムにより、クリック情報が検索ランクに影響を与えていることが明らかになった。NavBoostは2005年から存在していて、過去18ヶ月のクリックデータを元にしている。
3. ホスト年齢
hostAgeというフィーチャーの存在によって、生まれたばかりの新しいサイトはやはりサンドボックスに閉じ込められていることが明らかに。hostAgeという言葉自体がhost + ageの合成語だけでなく、一単語で「人質・担保」という意味を持つので言葉遊びですね。
4. Chromeのデータ
Chromeの利用データはサーチに影響しないという公式見解をよそに、やはりChromeのデータは使われていた。使わないわけがないので否定すること自体が公式見解の信憑性を損ねていたと思います。
5. アーキテクチャ
Googleのランキングシステムは単体の巨大なアルゴリズムではなくマイクロサービスの集合体。Trawler (クロール) / Alexandria (インデックス) / Mustang (ランキング) / SuperRoot (クエリー処理) などからなる。
6. リランカー
これに加えて、NavBoost / QualityBoost / RealTimeBoostなどのブースターでSERPの一等地に何を表示させるかを競い合わせている。中でもNavBoostは出現率が高く強力な様子。
7. Pandaアルゴリズム
Amit SinghalがリードしたPandaは、ユーザー行動や外部リンクなどに基づいてランクのスコアを調整する。特許にもなっている。ドメイン、サブドメイン、パスなどの多レベルで適用される。オブザーバビリティを担保するため、あえて機械学習を使ってないという点が印象的。
8. author属性
Google公式のE-E-A-T推奨通り、author属性は特徴量になっていた。ほとんどのサイトやフィードでauthor系メタデータはちゃんと入力されていないケースが多いが、これは対応したほうが良いかもしれない。
9. 降格
リンク先のコンテンツとのミスマッチ、SERPにおけるユーザー行動、UXの不備、検索ワードとドメイン名が完全一致する場合、製品レビュー系コンテンツ、グローバルページ、ポルノ、などは降格される。
10. リンクグラフはまだまだ重要
sourceTypeなどのメトリックによりリンクの重みが変わる。インデックス・ティアに分けられ、重要度高・更新頻度高・アクセス頻度高のコンテンツはより高速なフラッシュメモリに保存され、ティアの低いインデックスはハードディスクに保存される。
11. リンクスパムはベロシティ・シグナル重視
スパムは短期間に大量投下されたもののスパイクを検出することを特に重視している。怪しいものを見つけたら現在のベースラインと比較して異常値を検出。
12. 最新20件のページ更新履歴を保持
インデックスされたページの評価が高まってから変更して別のコンテンツに誘導するなどのハックを防ぐために過去20件の変更履歴を保持していることが判明。逆にいうと最大20件とバレてしまったので狙われそう…
13. ショートコンテンツの独創性を評価
Twitterのようなショートコンテンツでは、OriginalContentScoreにより、文字数をカウントし、オリジナリティを評価。
14. 日付は重要
鮮度は重要。bylineDate / syntacticDate / semanticDateなどにより、コンテンツの正確な日時情報を様々な角度から抽出している。
15. ビデオサイトは別扱い
もし50%以上のページがビデオならビデオサイトとして扱う
16. Your Money Your Life (YMYL) も特別扱い
公式情報通り、お金や健康など人生にクリティカルな影響を与える情報はより厳格に扱われる。
https://twitter.misskey.dev/status/1795500175487832491 #google
ソニーがKADOKAWAを買収?
あってもおかしくないけど、大きくなって大丈夫かな……
https://www.itmedia.co.jp/news/articles/2411/19/news149.html
投稿の先頭の「↓」は直前のブーストに言及していることを表します。
昼間の発言に夜になってから反応することがあります。
過去に他所で行ったのと同内容の投稿を繰り返すことがあります。
引用部分を除き、特に断りのない限り CC-BY 4.0(https://creativecommons.org/licenses/by/4.0/legalcode.ja)です。
This account is #searchable_by_all_users on https://Fedibird.com.