t.coのリンクの、より詳細な調査結果。(長いので畳みます)
日付に飛びがあるのは、自分の過去ツイートにリンクを含まない日があるため。
A. 2011/06/06以前: まだt.coが導入されていないため、URL情報が失われる問題は起こらない。ただし自動リンクもまだ存在しない。
B. 2011/06/10から2013/01/28まで: ツイート自体でもTwilogでも、t.coのリンク先の情報が消滅している。
C. 2013/02/05から2014/11/11まで: ツイート自体では、t.coのリンク先の情報が消滅している。Twilogでは、リンク先はt.coになっているが、リンク先の文字列を保存しており、最悪でもページのソースを見ることでURLを復元できる。
D. 2014/11/12以後: ツイート自体ではt.coのリンク置き換えが保存されている。Twilogの状況はCと同じ。
Notestockでは(というかTwitterから取得できるアーカイブでは)、どの時点でもリンク先のURLを保持している。でもこれは2023年4月に取得したアーカイブの場合なので、今アーカイブを取得するとどうなるかは、調べないと分からない。
@another twilogのログのダウンロードで取得できるCSVデータには、元URLが記載されていました。今日(2023-08-15)にダウンロードしたデータでも大丈夫でした。
ツイートを取得した時点で短縮URLを展開して保存してるのかな?
@alisato いえ、twilogのCSVではなく、Twitterから取得するアーカイブの話です。(参照: https://help.twitter.com/ja/managing-your-account/how-to-download-your-twitter-archive )
@another あ、はい、Twitterから取得するアーカイブであることは認識してます。
twilogのCSVログには元URLが載っているので、併用すれば元URLを知ることはできるかなと。
アーカイブがダメだと知って絶望しちゃう人もいると思うので。
@alisato Twilogについては、「ツイートを取得した時点で短縮URLを展開して保存してる」のだと僕も思います。
t.coのリンクの調査の続き。
自分のアーカイブが取得できたので調査してみた。前回(2023/04/06)に取得したものよりtweets.jsのサイズが91KB小さくなっており、悪い予感がする。jqやdiffなどをごにょごにょした結果分かったことは以下の通り。
- 上記のBやCの期間(2011/06/10から2014/11/11まで)について、アーカイブからも外部URL情報が消失している。つまり、今からアーカイブを取得しても、2014年11月上旬あたりまでの外部URLは取り戻せない。
- なぜか2017/05/18の1ツイートについても、散発的にURLが消えていた。よって、新しめのツイートについても安心はできない。