自分は過去にいろいろホームページを作ったのですが、うまくいかなかったり、趣味の範囲を超えずに、更新が途絶えてしまってドメインやサーバーの更新ができずに、ホームページ自体がなくなってしまったものが結構あります。

そして今回思ったことが一つ。

過去のサイトのデータがほしいんだけど、いい方法ないか?

今回新しくホームページを運営していくときに、その時の記事やデータが欲しくなったんですね。

一般的に更新切れでデータが無くなってしまったドメインを復旧させるとなると、どこのサーバーでも復旧サービスを使って、数万円なんかしちゃったりして。

ドメインを復旧する必要がなく、データ(テキストデータ)だけ抜き出すにはどうすればよいのか。そこで見つけたのがこちらの

ウェイバックマシン(WayBackMachine)です。

過去のサイトや記事が見れるウェイバックマシンとは

ウェイバックマシーンとはアメリカで設立され、20年以上続いている世界中のインターネットのライブラリを保存している非営利団体インターネットアーカイブ(INTERNET ARCHIVE)が運営しているサービスです。過去にインターネットで公開されたウェブ情報はほとんどアーカイブとして保存されています。

過去のデータの保存や中古ドメインの検索をすることができて、例えば自分が新しく使おうと思っているドメインが過去どんなウェブサイトを運営しているかをチェックするとこができます。

ウェイバックマシーンを使う利点

閉鎖した自分のサイトの情報を掘り起こしたい時

今回僕が利用した理由ですね。サーバーやドメインの停止により見れなくなってしまったサイトの情報を少しでも抜き取りたいという意味で利用できます。後述しますが、抜き取れないデータもあるみたいですので、一概には言えませんが、ほんの一部でも抜き取れるというのはとてもありがたいです。

 

自分の取得ドメインの過去の情報をチェック

こちらも後述しますが、新規でドメインを取得しようと思っている人で実際に今使える!って新規ドメインゲットと思うかもしれませんが、実は中古ドメインだった。ということもあり得ます。その過去のドメインが良質なサイトであれば、もしかしたらSEO的にもよくなるかもしれませんし、逆にペナルティを受けているサイトであれば、自分のサイトを立ち上げても評価がマイナススタートかもしれません。

そういった自分の取得しようとしているドメインが過去にどのようなサイトを運営しているかを確認できます。

競合サイトのチェック

自分が今行っているサイトの競合サイトのURLを検索すことによって、過去のURLのキャプチャをすべて抽出することができます。いつから運営して、月にどのくらいの記事を入れているのか、内部リンクを確認したり、サイトマップやデザインなども検索することができます。さすがに競合サイトを調べるならAhrefs(エイチレフス)の方が全然優れていますが、無料で最低限の調査をするというのであればおすすめです。

運営中のサイトのバックアップも可能

WordPressを利用している人であれば、ほとんどの人がバックアッププラグインを導入していると思いますが、ウェイバックマシーンでは手動でもURLのアーカイブを保存することが可能です。クロールされていれば、アーカイブ保存は自動でされますが、手動であれば、確実に保存できますし、カレンダー表示から過去の自分のレイアウトと比較することも可能です。

 

ウェイバックマシーンの使い方

まず公式サイトに飛びます。

赤い四角で囲われた部分にURLを入力します。

すると、過去にアーカイブとして保存された記事がカレンダーになって表示されます。(赤い線)

さて、こちらの赤い線をよく見てください。カレンダーの上のグラフとみてみると、2004~2007年と2016年~2017年の二つに分かれています。僕がこちらのサイトを作成したのが2016年からなので、こちらのドメインはなんと中古ドメインだったんです。

カレンダーをクリックするとアーカイブデータを見ることができます。

こんな感じです。こちらのサイト、エックスサーバーでドメインの契約更新をしないで、3年もたってしまい、サイト自体にはアクセスはできませんでしたが、こうやってウェイバックマシーンを使うことによって、過去の記事を読むことも、クロールをすることもできます。

テキストデータだけであれば、記事をコピー&ペーストすればもう完璧です。

ただ、記事のタイトルをgoogleで検索して引っかかった時には、クロールされているのでgoogle search consoleで削除依頼をしたほうが良いかもしれません。Wordpressの管理画面から削除できない場合、記事内容が重複してしまいます。

一部出来ない記事があった

自分個人的にはほぼ全部の記事が見れると思ったのですが、一部見れない記事がありました。例えばサーバー上で規制がかかっているものですね。

こんな感じのエラーになりました。

実はこちらのデータを抜きたかったので、ちょっと残念。エックスサーバーに問い合わせをすると仮にできても3万ほどかかるということなので、残念。自分の再度同じ記事を書いていこうと思います。

ついでなので「楽天市場」の昔を今を見てみた

有名どころのECサイトの変遷を見てみるのも面白いです。そこで個人的にも気になった「楽天市場」。こちらの過去の変遷を見ていきたいと思います。「楽天市場」を検索してみると、サイトの運営自体はなんとアーカイブとしては1997年から存在しています。

1997年当時の楽天市場のサイト

検索窓が左端にあって、最初は楽天市場に参入してくれている企業の紹介から入っています。参入数も少なかったので、こういう形で全面的に出しているんですね。出店数や商品数はわかりませんが、1ページに載るくらいの量しかありません。

2003年の楽天市場のサイト

だいぶ楽天市場のサイトが作りあがっています。店舗数が382店で商品数が約30,000品となっています。ここからはグルメより雑貨など多くのジャンルを展開し始めました。

2020年現在の楽天市場

店舗数はなんと49,248店。商品数はなんと274,872,595点ととてつもない飛躍を遂げています。絵も多く、視覚的にも楽しめますし、下にスクロールすれば、銀行やでんきなどその他のサービスまで展開しています。

こうやって大手ECサイトを検索してみるのも面白いですよね。

 

ウェイバックマシーンの有能さにびっくり

自分のサイトのデータが知らずに載っているというのはびっくりしますが、たった2か月くらいしか運営していなかった弱小サイトでもデータが8割以上残っていたので、かなり有能なサービスだと思いました。

ちなみに、自分のサイトのデータをウェイバックマシーンに載せない方法はあるといえばあります。そのためには運営会社であるインターネットアーカイブという会社に削除申請をする必要があります。

しかし、こちらはすべて英語で申請しなくてはならないという点と、自分の運営サイトであるという証明を含めて、何度かやり取りをしないといけません。

ましては僕のサイトのように現在閲覧できない状態で、しかもグーグルアナリティクスにも所有権を確認できない状態だとかなり厳しいと思います。

まぁ残っててヤバイという理由もないので、そのまま放置していきます。最低限抜き取ったデータを使って新しく作るサイトに反映させていこうと思います。

自分の過去のサイトや競合サイト、気になるサイトを調べてみてはいかがでしょうか?