サラリーマンをやったり、マーケターをやったり、中小企業診断士をやったり、プログラマーをやったり、ブロガーをやったりしています。
これを書いている今、プログラミング(Python)歴は4ヶ月ほどです。
そんなボクもこの4ヶ月ほどでスクレイピングがある程度できるようになり、いろんなサイトから情報を引っ張ってエクセルやCSVに保存できるようになりました。
単純に一つのURLから情報を引っ張ってくるだけじゃなく、以下のように結構いろんなパターンのスクレイピングを使いこなせるようになりました。
- 1000のURLが異なるページを自動スクレイピング
- 検索結果の「次へ」を押しながらスクレイピング
- 検索条件にチェックを入れて出力された検索一覧からスクレイピング
- ログインが必要なサイトのスクレイピング などなど
もちろんスクレイピングの対象となるサイトによって全然仕様が違うので、毎回「これはどうしようかなぁ」と頭を捻りますが、考えれば解決策が見つかるだけの「武器(知識)」は揃っていると思います。
というわけで、今回は文系出身のぼくがPythonでスクレイピングできるまでに学んだ教材を紹介したいと思います。
文系出身がPythonでスクレイピングできるまでに学んだ教材を紹介
まず、Pythonのスクレイピングには2つタイプがあります。(他にもあるかもしれないけども)
「BeautifulSoup(ビューティフルスープ)方式」と「Selenium(セレニウム)方式」です。
めっちゃ単純化して説明すると以下のようなイメージ。
- 「BeautifulSoup方式」・・・ブラウザを開かずにURLから直接スクレイピングを行う。
- 「Selenium方式」・・・ブラウザを開いて操作することでスクレイピングを行う。
まぁ一旦ここでは、Google Chromeなどのブラウザを開くかどうかの違いだと思ってください。
という前提で、ことスクレイピングを勉強するためにボクが学んだ教材は以下の通り。
- プログラミング言語 Python 3 入門(Udemy)・・・スクレイピングより先に文法を押さえました。Pythonの基礎を網羅的に学べる講座です。2〜3周すれば大体基礎は頭に入ります。
- PythonによるWebスクレイピング〜入門編〜(Udemy)・・・主にSeleniumでのWebスクレイピングを学ぶことができます。かなり丁寧なのでスクレイピングの1歩目におすすめです。
- 2時間で基礎を完全マスター!PythonによるWebスクレイピング入門 連結版(Youtube)・・・BeautifulSoup方式もSelenium方式も両方学べます。Youtubeなので無料。上記2番目のUdemyの講師と同じ方なので、知識を深めやすいです。
- たったの1時間でよくある業務をPythonで自動化する方法をわかりやすく解説(Youtube)・・・特にSelenium方式でブラウザを操作しながらスクレイピングする方法が学べます。ログインしたり検索条件を設定してからスクレイピングできるようになります。
スクレイピングの知識を得るためにお金を使ったのは、Udemyの講座2つだけ。
通常時に購入すると高額ですが、月に1〜2回ほどあるセール中に買うと1本1500円くらいで済みます。
あと、スクレイピングスキルとは直接つながりませんが、Pythonの入門書を読んだり、プロゲートをやったりもしました。
が・・・正直基礎知識はプログラミング言語 Python 3 入門(Udemy) この1本で補えると感じています。
今回紹介した4つの教材をマスターすれば、結構スクレイピングできる状態に来ると思います。
もちろん全ての知識が詰め込まれているわけではないですが、講座をこなせば「わからない時のググり方」のイメージもつくので、あとは実践しながらでオッケーです!
最後に、ボクが沼にハマって大変だったことも書いておきますね。
沼にハマって大変だったこと
これに関しては、たった一つだけ。「開発環境を整えること」です。
Pythonを使える環境にして、「BeautifulSoup(ビューティフルスープ)」と「Selenium(セレニウム)」やその他必要なライブラリ(システムのパーツのようなもの)を使えるようになるまでのエラー処理に苦労しました。
これはPCの環境によって、どこで詰まるか変わるようなので、まだまだ初心者のボクにはなんとも解説できません。
でもクリアした方法はお伝えできます。
一つ一つのエラーをググって、前例を見つけて、潰していくだけです。
Pythonは人気言語なだけあって、かなり多くの情報がWEB上に無料で転がっていますので、ググればほぼ解決可能です。
是非参考にしてみてください!
スクレイピングができるようになるまで学んだ教材▼
- プログラミング言語 Python 3 入門(Udemy)・・・スクレイピングより先に文法を押さえました。Pythonの基礎を網羅的に学べる講座です。2〜3周すれば大体基礎は頭に入ります。
- PythonによるWebスクレイピング〜入門編〜(Udemy)・・・主にSeleniumでのWebスクレイピングを学ぶことができます。かなり丁寧なのでスクレイピングの1歩目におすすめです。
- 2時間で基礎を完全マスター!PythonによるWebスクレイピング入門 連結版(Youtube)・・・BeautifulSoup方式もSelenium方式も両方学べます。Youtubeなので無料。上記2番目のUdemyの講師と同じ方なので、知識を深めやすいです。
- たったの1時間でよくある業務をPythonで自動化する方法をわかりやすく解説(Youtube)・・・特にSelenium方式でブラウザを操作しながらスクレイピングする方法が学べます。ログインしたり検索条件を設定してからスクレイピングできるようになります。
今回はいじょーです!