日常業務の中で以前に比べて割合が増えているのは調べることではないかと思います。特に膨大なWEBの中から、最適な情報を探しだすのは能力も要求されると思います。 また調査だけでなく定点観測する場合も非常に労力のいる作業です。例えばWEBサイトのライバル価格調査やライバルの更新状況等定点調査が必要な場合も多いでしょう。 今回は膨大な情報なWEBサイトから、簡単に情報収集をしてくれるウェブスクレイピングを活用したimport.ioというサービスについて紹介します。
ウェブスクレイピングとは?
そもそもウェブスクレイピング(WEBscraping)とは、ウェブサイトから特定の情報やサイト自体のデータを自動的にプログラミングでウェブページからデータ抽出取得・抽出させることをいいます。
例えばショッピングサイトで特定の商品の価格を取得や、ニュースサイトのトップニュース見出しの取得またはサイトリニューアル時に以前のコンテンツデータの取得等などをすることができます。
また継続的・期的に情報抽出も可能でプログラミングで自動取得の設定することにより実現できます。 ただし一方でWEBスクレイピングは法的問題・リテラシーの問題もあります。
WEBスクレイピングで取得したデータの利用によっては著作権違反ありますし。robots.txtで取得を拒否することもできるのと利用規約でウェブスクレイピングを禁止しているサイトもあります。
そうしたサイトからの取得はやめて、また取得したデータに関しては個人の情報分析のためとしての利用にとどめておき、サーバ攻撃と受け止められてしまうよ うな激しいWEBスクレイピングは控えましょう
import.ioのすごいところ
import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所(構文解析)を判断して情報を集めてくれるスクレイピングサービスです。
Webページの重要データをスプレッドシート変換をしてくれて、CSVにてダウンロードが可能・APIにも変換してくれます。しかもJSONで取得可能なので、Tableau等BIツール等の連携も可能にしてくれます。
Use Import.io + Tableau to Analyze Extracted Web Data http://www.tableau.com/ja-jp/about/blog/2015/8/use-importio-tableau-answer-questions-web-data-43332
今まで、WEBサイトを開いて、1ページ1ページコピペしてExcel等で集計していたことをサイトがimport.ioが自動的してくれるわけです。誰でも簡単にできるので一度ためしてみるといいでしょう。
[参考サイト]import.io公式サイト