・元となる対象サイト
・サンプルプログラム動作確認
スクレイピングに挑戦
・スクレイピングとは?
・ウェブサイトから情報を取得し、その情報を加工して新たな情報を生成することです。
・ポイント
preg_match_allの正規表現を使ったパターン取得処理
・スクレイピングを使う注意点
- タグ入力の特徴を見抜く
- 元ウェブサイトの内容が変わると取得データが崩れる
- 禁止用語および、著作権に関する写真は転用すると犯罪になります
今回使う関数
file_get_contents・・・ファイルの内容を全て文字列に読み込む
preg_match_all・・・繰り返し正規表現検索を行う、パターンを使って情報を取得します
・サンプルプログラム動作確認
|
|
<?php //スクレイピングプログラム//楽天市場から情報を取得 $sub_body = file_get_contents('https://search.rakuten.co.jp/search/mall/%E5%BF%8D%E8%80%85/'); //取得したデータから特定の部分を抜き取る if (preg_match_all('|<div class="dui-card searchresultitem".+?</div></div>|s', $sub_body, $matches)) { //抜き取ったデータをループで回して表示する foreach ($matches[0] as $key => $value){ var_dump($value); } } ?> |
|