なんだかんだと3回目になった「やがみんの作業倉庫引っ越し記録」
今までの記事を簡単に振り返ると…
- ライブドアブログからお叱りを受ける
- なんだかんだと気になっていた部分もあるし、引っ越しするか!
- 引っ越しするのは勢いで決めていいけど、引っ越しするまでの方法はしっかり考えなきゃ
- とりあえず画像ぬきだしてからじゃないと話にならないな!!
という感じまでが前回。詳しくは以前の記事を↓
本日は最初の壁ともなったブログで使用していた画像取り出しについてを中心にお話していきます。
今振り返ってみるとこれ本当に二度とやりたくない。
細かい所は本文で語っていきますが、わかってしまえば簡単でした。わかればな。
正解にたどり着くまでが本当にえぐかった…。
備忘録、および同じように困っている人がきっといると思うので誰かの参考になれば幸いです!( ˘•ω•˘ )
ブログ移転する為の画像抜き出し方法は?
これは作戦建てる時に色々調べたのですが当然便利なツール類があるみたいです。
まぁそんな手打ちでできんよね。そりゃ。
多くのWordPress作成や代行専門ブロガーさんたちが紹介しているソフトを使用すれば簡単に!!
行かなかったんですよねぇ!!!
Screaming Frog SEO
まずは各種サイトで紹介されていたこれを試しました。
有料版・無料版と二つのデザインで提供しているのですが、とりあえず無料版を選択
※無料版の場合は500ページまでの抽出しかできません
- 「Screaming Frog」で画像URLを抽出
- 「Mery」等のテキストエディターで画像URLを置換・抜き出す
- 「Irvine」等のダウンローダーでダウンロードする
以上がダウンロードの流れなのですが、まぁサクッと失敗しましたw
- そもそも取得ができない
なんでかわからないのですが最初はデータの取得ができませんでした
再起動後にやっと取得できたのですが、なぜかやたらと不安定。これはWin10だからなんですかね?? - ページの取捨選択ができない
全体のページを読み込んでしまうので目次などの必要のないページまで読み込んでしまう
それをこちらで取捨選択できれば良かったのだが、どうやらそれもうまくいかない - 今度は無料版の500制限に引っかかる
やっとの思いでなんとかページURLを保存できたのですが、どうやらこのURLの方も500個までぽかったので僕の状況では全く使えない…
というわけで「Screaming Frog」での作業は有料にすれば使えるかもですが、当時の段階では作業不能で失敗。
GetHTMLW
こちらは先ほどと違ってページを丸ごとダウンロードするスタイルのソフトです。
該当するHP・ブログなどのWebページ全体をダウンロードするのですが…失敗。
こちらのソフトはWin10では動作が不安定になりやすいみたいな情報もいくつかあったので、「管理者権限」による実行を行い、互換性起動を試してみたのですがこれもダメ。
これは結構なんにでも使えるので便利。とはいえこれで動かないパターンもままあります
一応「プログラムのテスト」を押してみて確認したのですが、本番ではリストの取得ができず。
そもそもページの取得が始まらない状態で、困りました。
ライブドアブログやFC2ブログで使う場合「取得条件の変更」の設定を行って使います。
ライブドアブログなどは画像サーバーが別に置いてあるみたいなのでそのままだと取得できないからという理由だそうです。…との事ですが、ここをしっかり設定したのにこれもダメ。
アメブロを試しに読み込ませてみたら動くのですが、全然知らない人のライブドアブログを読み込んでみるとやはりダメ。
うーん!!
巡集
こちらも有名なソフトみたいなのですが、2021年現在だと使えないという情報がすでに多し。
藁にもすがる思いで使用してみたら…まぁダメでしたよね。こちらも取得自体ができませんでした。
PHPプログラムによる画像取得
はい。ここで手詰まり。
もう手作業でしか仕方ないかなー、と思っていたところに光が…!!
「PHPプログラムによるライブドアブログからの画像取得」なんてものを見つけたんですね。
もうこれは難しい。難しいけれどもとりあえずやってみる価値はある。だって手詰まりだし。
そもそもWordPressというものは「PHP」というプログラムコードで動いています。
「PHPってなんぞやぁ??」って話をすると、「サーバー側で動く動的(タイミング・数で変動する)なプログラム言語」です。
厳密に言うと違うのですが、 今現在見ているこの画面は「サーバー側のPHP→HTML・CSS等の言語にパソコンやスマホで変換されて」見えているわけです。
これによって人によって見え方を変えたり、カウントをしていって指定した数値になるとページが変わるなどWebページの表現範囲がとてつもなく広くなります。
HTMLやCSSなどの言語はサーバー側で使う場合は静的という場合のみにしかつかえません。詳しく話すとキリが無いのでこれぐらいでw
というわけでどうせWordPressガチでやるならPHP覚えた方が良くない??じゃぁやってみっか!!的な感じでこの「PHPプログラムによる画像ダウンロード」を試してみたわけです。
- Windows内でPHPが動くようにダウンロード
- PHPを動作させる状況ができたら先ほどのサイトからありがたくコピー
- プログラムを入力しあとは待つだけ!
PHPでの画像ダウンロードの流れはこんな感じ。よし!ほな頑張ってみるか!!
これにより「Apache」経由での起動が可能。うーん難しい。
見慣れない画面を開くのはいくつになってもビビりますねぇ…
Windows左下の窓マークからスタートメニューを開き「コマンドプロンプト」を選択
よし!!これで僕のパソコンでPHPプログラムを使用する事ができるようになりました!!
やっと本題である「PHPコードによる画像ダウンロードの実行」が試せるぞ!!
ここからのPHPコードをいじるなどプログラムを書くときに使いやすいソフトです
このMeryを使用してプログラムをいじっていきます
ここまで頑張った最後の望み!!
果たして結果は!?!?!?!?
おん。そうだよ。失敗だよ。
これに関しては何がダメだったのかよくわからないままです。
一応取得やデータの吐き出しを何となくしてくれているんですが、そもそも画像データを取得してこない。
たまに入ってくるのは多分広告関連だと思われる小さな画像のみ。
Newテキストデータではしっかり置換をしてくれて、文字ベースの部分は全くと言っていいほど問題なし。
しかし画像のダウンロードだけ出来ない。
先ほどの「GetHTML」と同じく「画像サーバーが違うから」という理由でのアウトなのか判別できず。
しばらく試してみましたがゴリゴリ時間が溶けていくだけなので残念ですが諦めました。。。
ダウンロードできない!!手詰まり!!
情報貰っておいてこういうのもなんですが、ネットに落ちている情報ってトレンドやら流行りの商材やらと情報が古かったり正確じゃ無い事が多いですよねぇ…。
もちろん今回画像DLできなかった要因が「ライブドアブログだったから・ssl化していたから」と他の要因があったのかもしれませんが
「ライブドアブログからでも大丈夫!」
「安全化されてても大丈夫」って書いてあったじゃん!
絶対チェックしていないでしょ!?
…とグダグダ話していてもしょうがない。
このままだと手打ちか画像は諦める方向性になってしまう…それは避けたい…。
ここで僕は考えました。
日本のサイトやら日本語の情報サイトが駄目なのかもしれない。
結局みんな「サッ」と共有するデータのせいで見つからない可能性を視野に入れました。
ということで海外サイトを含めた検索をすることに。
翻訳サービス「DeepL」などを使い「単語+スペース+単語」でひたすら検索。
出てきたサイトを読み込んで行くとなかなか悪くないソフトを発見。
紹介している海外記事類は
「ヘイ!ボブ!Webページのダウンロードならこれだぜ!」
「ハイ!ジョン!これを使えばバックアップも簡単だぜ!!」
みたいな感じでやたら推している人が多かったのです。
それが「Cyotek WebCopy」でした。
僕にとっての救世主「Cyotek WebCopy」
海外ソフトかぁー、どこからダウンロードするんかなぁーと思っていたら普通に「窓の杜」でダウンロードできました。
やはり窓の杜にあるとウィルスなどの心配がガクンと減って良いですよね!!
Cyotek WebCopyのダウンロードはこちらから【窓の杜】
さっそくインストール。
今まで試したソフトと大体一緒の操作感。
さて、読み込ませてみると……
おい。マジか。
今まで他のソフトは動いている感がなかったけど、今回は完璧じゃねえか。
なんにも心配させる隙もあたえずゴリゴリ動いてくれます。
つうかサクッと行き過ぎて拍子抜けレベル。
最初からこれを見つけていればwww
スキャンをかけた後に予想されるダウンロード時間は「1時間程度」と表記されていたので、ワクワクしながら一時間程度待つことに。
その間は休憩いれながらサーバー構築、契約等の情報収集などなど。
もしこの画像ダウンロードが終わって問題が無ければそのままサーバー契約をして進めていかなきゃですからね!!
4.94GBものなかなか大量のデータのダウンロードでした
僕のサイトより大きいサイトさんはもっとかかるんだと思います
ダウンロードが終わり、フォルダがしっかりできていたので確認すると……
どれがどれだかわからないw
画像だけの抜き出しではなくウェブページ全体だからですね。
プロファイルを開いて容量がやたらと大きいファイルを探します。
お、みつけたぞい!中を確認していきます。
大丈夫だよな?今度こそ大丈夫なんだよな??
やったー!
ちゃんとしっかりダウンロードできてるー!!
ただ残念な事に約95%程度のダウンロード率でした。why??
いうてよくよく考えてくれ。
全部手打ち上げ直しの9000枚にくらべたら少しの手作業なんて全然マシ。
とりあえず画像データをそのまま使える。これだけでもかなりありがたい。
移転前の準備というか懸念点の一つはこれで解消。
データさえあればとりあえずアップロードしていけば問題なし。
でもね?こういう面倒な作りをしないでくれ…ライブドア…なんだこの階層分かれまくり画像フォルダ…
どういう条件で分かれているんでしょうか??
今回の画像データ取り出しは本当に苦労した
読めども読めども同じ情報しかなく、単語を変えども変えども同じ情報。
twitterやその他フォーラムサイト、某掲示板なんかみてもたまにあるのは「つかえないよ、それ」の連続。
正直諦めるポイントが何度もあったよね!!
「ふぁ??まだ本番ですらないのに!!」
「もうやだ!辞める!!」とかなり弱気になっていましたw
ネットを探せば大量の情報がある時代にはなりましたが「当時は使えたならまだしも絶対動作チェックせずにやっただろ??この情報」みたいな真偽不明な物が本当に多くなりましたよね…。
「いかがでしたでしょうか??」のクソサイトに比べたらマシなんですけど。
今回の件で昔の時代のホームページ等より圧倒的に情報精度や検索精度が悪いと強く感じましたね…。
たまたま運良く海外サイトをいくつか見つけたので上手くいきましたが、国内サイトを適当に検索していたら多分問題解決できなかったでしょう…。。。
僕も気を付けていきたいと思いつつ、やはり雑なブログや情報サイトの乱立は少し苛立ちますよねw
潰れろ!クソ情報サイト!!
とりあえずライブドアブログちゃんはテキストデータのエクスポート素晴らしいぐらいにしっかりしているんだから、画像データの一括エクスポートつけてくれたら本当にもっと楽だった。まじで。
まぁエクスポートできるだけでもありがたいはありがたいですからね…。。。
とりあえず画像データは問題ないし、これでやっとブログ引っ越しを本格的に始められる…!!
ここからは本番でもあるサーバーを契約して、独自ドメインを取得して、サイト作成に本腰を入れていくわけです。
正直不安しかないですし、引き返すなら今なんだよなぁ、なんて思ったりもしましたが…
「強い!意思で!進めていく!」のが大事ってJOJOも言ってたはず。
言ってたっけ??そんなこと??でも絶対今回の手詰まりより楽ちんだと思うしな…
次回はサーバー契約〜あたりをお話したいと思います!お楽しみに!(・∀・)
コメント