正規表現でhtmlソースからjpg画像アドレスを抽出する

ちょっとしたところで使うととても便利な正規表現。でも使用頻度が少ないので都度調べるためにネットサーフィン…

今後そうならないためのメモ。使用ソフトは SublimeText2


使用する正規表現の記述

■src=”xxxxx” か href=”xxxxx”の「xxxxx」部分を取得
(?<=src=")(.+?)(?=")|(?<=href=")(.+?)(?=")

■先頭から行末まで~.jpgで収まっている文字を検索
^(.+?\.jpg)$

抽出対象のhtmlソース

本サイトの トップページ のhtmlソース

手順

  1. Find > Find in Files…(ctrl + shift + f)
  2. 「Find:」 へ 「(?<=src=")(.+?)(?=")|(?<=href=")(.+?)(?=")」を貼り付け
  3. オプションの 「Use Buffer」 と 「Regular expression」 をオン
  4. 「Find」ボタンを押す
  5. 検索結果をさらに検索、Find > Find (ctrl + f)
  6. 入力欄へ 「(?<=src=")(.+?)(?=")|(?<=href=")(.+?)(?=")」を貼り付け
  7. 「Find All」ボタンを押す
  8. 「ctrl + c」 でURLをまとめてコピー、新規ドキュメントに貼り付け
  9. 新規ドキュメントから検索、Find > Find (ctrl + f)
  10. 入力欄へ 「^(.+?\.jpg)$」を貼り付け –>「Find All」 –>「ctrl + c」で抽出完了!

※動画では最後に抽出した画像を分かりやすく表示するためにimgタグで囲ってhtmlファイルでブラウザ表示しています

動画

Share