先回、WEBスクレイピングの学習サイトについて報告しましたが、公開できるように自分の「私の蔵書リスト」なるサイトを作りましたので公開いたします。
私の蔵書リスト
まず、書籍のリストとなるメインのページを下記のように設定しています。
そして、各書籍の個別のページは、下記のようにしています。
まだまだ、リストとしては10件程ですので役には立たないのですが、学習サイトとしては充分であると考えています。今後は蔵書リストとして充実させていきたいと思っています。
想定している学習用の教本:
- 書名: いちばんやさしいPython機械学習の教本第2版
- 出版社:株式会社 インプレス
- 著者: 鈴木たかのり氏ほか
- ISBN: 9784298016076
- 対象部分:Chapter 3 Lesson 23 複数のWebページからデータを集ましょう。
コマンドの内容:
(1)書籍一覧ページからURLリストを取得する準備
蔵書リストのURL:https://rtmrw.parallel.jp/book-library/booklist.html
レンタルサーバーが使用している文字コードは ISO-8859-1 のため、日本文字が文字化けします。このため、下のエンコードコマンドを追加してください。
res.encoding = res.apparent_encoding
(2)これ以降のコマンドは、教本とまったく同じコマンドが使用できます。
(3)収集した情報を保存する
******************** 大成功です! *********************
感想
たったこれだけの内容を実行するだけなのですが、サーバーの拒否にあったため、ほぼ
3週間もうろうろ
してしまいました。でも多くのことを学びました。
インプレスさんのサイトがだめなら、他のサイトで! といきこんだのですが見事に挫折してしまいました。まず、ページの中の構成がどうなっているのかと他のサイトを調べたのですが、最近の自動生成されたホームぺージは、いろいろなタブが複雑に使われていることに驚きです。WEBスクレイピングのためには、まず、このページ構成を解析できる能力が必要なことを痛感しました。
初心者には、単純なサイトでないと挑戦できないと悟ったので、今回の簡単なサイトを作ることにしたのです。
学習用にこのような単純なサイトで充分ですね。
活用していただけると幸いです。
*********************************************************************