WebサイトからリンクのURLを抽出する方法(直リン抽出)

Webサイトからフリーソフトを使ってリンクのURLを抽出(スクレイピング)する方法を書いておきます。

下記の画像は某サイトからTOPページにあるrapidgatorのリンクだけを抽出した画像です。

こんな感じで抽出してJDownloader2に投げておけば、重複してもJDownloader2が除外してくれるので簡単です。

使っているソフトは「Power Search」の無料版。※1ページにつきマッチ数25の制限あり

Power Search ⇒ https://www.inspyder.com/products/PowerSearch

起動後は適当にプロジェクト名付けて、ドメインは無記入。

検索方法はワイルドカードでも正規表現でもOK。

設定は保存できるので次回から設定不要「Go」をクリックするだけです。

それとサイトにもよるけど「Show URL in Results」にチェックをつけておくと分かりやすい場合もあります(付けないとURLだけ抽出)

抽出したURLは、そのままソフト上で「Ctrl+A」から「Ctrl+C」でコピーしてもOKですし、CSVでも出力できます。

URLを削除したい時は右下にあるClear Refresh。

今回はリンクを取得するということで書きましたが、画像やタイトルも抽出することができます。ただ…これをするとリンクのURL取得に時間がかからなくなるので、ついついダウンロードしすぎてしまうというデメリットがあります。

ちなみに子供の運動会の予定なのに…夜中にブログ…「何やってんだろ…」と思いながら書きました。

スポンサーリンク