Scrapyでデータ取得でクローリングで取得したURLから検索する(Scrapy その2)

前回に引き続きてScrapyでのデータの取得です。

★関連記事
CentOS環境の python3.6(pyenv環境)で Scrapy を利用してみる(Scrapy その1)
CentOS7でscrapy-splashを使ってJavaScriptの解析(Scrapy その3)
Scrapyでデータの保存をmongodbにして見る(Scrapy その4)
CentOS7でscrapy-splashを使ってJavaScriptの解析 その2(Scrapy その5)

前回は「startproject」で作成したプロジェクトからデータを取得していただけでしたので、今回は取得したURLにさらに接続してデータの取得を行います。

クローラーっぽい動きになってきます。

まずは今回から複数のページにアクセスするために一度に大量のアクセスを行わないように、一度接続した後に3秒の時間差を置きます。

 

次に本体となる「spiders/devcolla.py」のファイルを編集します。

 

最初の「parse」のyeildの2番目の引数で、「parse_topics」の関数を呼んでいます。

こちらにURLの引数を渡し、新しいクローリングを発生させています。

これで複数のページにクローリングが実施できます。

外部のサイトなどに飛ばないように「allowed_domains」などで対象のドメインを設定して範囲を絞ったっりします。

今回はこんなところまでで。