Webスクレイピングは違法?禁止サイトの確認手段や適切な方法を紹介

業務を効率化したり、データを活用するのに役立つ技術はたくさん出てきています。その一つが、スクレイピングです。新しい技術が出てくると、扱い方や使用方法が議論され、時として厳しい目が向けられます。
ここでは、スクレイピングが違法かどうか、その根拠や理由を取り上げます。スクレイピングを禁止しているサイト例や、そのようなサイトから情報収集する方法などについても記載しますので参考にしてください。

スクレイピンに違法性はあるの?

インターネットの普及により、私たちは多くの情報を手軽に得られるようになりました。そして、スクレイピングという技術の登場で、Webサイトにある情報を自動的に抽出し、リストやデータ作成に活かすことも可能になりビジネスでの活用を期待している方も多いはずです。

スクレイピングは違法ではないがやり方次第で問題が生じることがある

スクレイピングに関しては違法性を指摘する声もありますが、法律的には問題ないとされます。Webサイトは一般公開されており、その情報を収集するか否かはサイトを見ている人の判断になるからです。
なお、公共サービスにおいてもスクレイピングを使用するケースが増えてきました。一例として、総務省の消費者物価指数の調査にもWebスクレイピングの技術が使われています。
日本ではデジタル庁が創設され、ITの専門家集団を抱える組織に成長しています。怪しい技術を国が使うことはあり得ないため、スクレイピングは違法ではないと判断できるでしょう。
ただし、個人情報を不正に取得するなどのスクレイピングは倫理的に問題があるため、法的な問題が生じることがあります。

スクレイピングを禁止しているサイトがある理由

スクレイピングを禁止しているサイトがある理由
法律でスクレイピングが違法とされていなくても、スクレイピングを禁止するサイトは少なくありません。サイトの運営者がスクレイピングを禁止する理由として以下の点が挙げられます。

利用規約に反する

会員制のWebサイトなどで、スクレイピングを禁止する規約を制定している場合があります。会員になる前段階で利用規約が表示されますが、その中にスクレイピングについて記載しているサイトがあるということです。
合意して会員になった場合はスクレイピングが禁止であることを理解したとみなされるとなるため、注意が必要です。

サーバーに過剰な負荷がかかる

スクレイピングは、データを収集する段階でサーバーに大きな負荷をかけることがあり、実害も報告されています。過去には、スクレイピングを行ったサイトでアクセス集中による障害が発生し、影響の大きさから逮捕者が出たこともありました。
サーバーに過剰な負荷がかかり、その結果、多くの利用者が不利益を被ることを恐れて、あるいはトラブル防止のため禁止しているサイトもあります。

著作権侵害が発生する

スクレイピングにより収集したデータには、著作権が絡む画像や映像、文章などが含まれるケースが考えられます。なお、著作権法の保護の対象物は、小説や音楽に加え、百科事典やコンピュータプログラムも含まれます。
かなり広範囲のものが対象となるため、著作権侵害を起こさないために、あらかじめスクレイピングを禁止する措置を取っているサイトも少なくありません。

違法行為とないないようにスクレイピングを行う方法

違法行為とないないようにスクレイピングを行う方法
スクレイピングを禁止しているWebサイトでは「Web API」を提供していることがあります。Web APIには、スクレイピングによって得られるのと同様のデータが公開されています。
サイト側が積極的に情報提供している内容のもので違法性はありませんし、自分でスクレイピングすることなく必要な情報を手に入れられる点がメリットです。

スクレイピングを禁止しているサイト例

では、どのサイトがスクレイピングを禁止しているのでしょうか。海外の例を3つ、国内の例を2つご紹介します。
いずれもネームバリューのある企業になり、情報の扱い方に明確なポリシーを持っていることを理解できます。

Amazon

Amazonは、ロボットなどを用いたデータ収集や抽出を認めていません。サイトの利用者は、スクレイピング禁止の条件に同意したものとみなされます。
後述する楽天の規約に比べて、スクレイピングに対する姿勢が厳しく鮮明と言えるでしょう。

X(旧Twitter)

X(旧Twitter)では、事前の承認を経ずにスクレイピングあるいはインターネット上で巡回してデータを収集するクロールを禁止しています。

YouTube

Googleが運営するYouTubeの利用規約を見ると、スクレイピングは禁止されていますが、一定条件の下では許されています。
スクレイピングが許可されるのは、「公開されている検索エンジンをYouTubeのrobots.txtファイルに従って使用する場合」と「YouTubeが事前に書面で許可している場合」に限られます。

楽天

楽天では、商品ページの情報取得や商品購入に際し、許可なくスクレイピングを使用することを禁止しています。なお、楽天の利用規約には「お客様が商品の購入等の取引を行うにあたっての諸条件」としてスクレイピング禁止が明記されています。
Amazonのように、サイトの利用すべてにおいてスクレイピングを禁止しているのとは要件が少し違います。

Yahoo!ファイナンス

Yahoo!ファイナンスの株価情報は見やすく有用なため、好んで参照している方も多いと思います。それでも、スクレイピングで機械的に情報を取得する行為は、システムに過度な負担がかかるため禁止されています。
どうしても株価データが欲しい方は、同社が提供する有償サービスを利用してダウンロードすると良いでしょう。
スクレイピングは比較的新しい技術であり、厳しい目で見ているサイトも多々あります。スクレイピングは著作権やプライバシーなどに抵触する可能性があるため、サイト運営者は神経をとがらせているのかもしれません。

スクレイピングを禁止しているサイトの確認方法

上記で取り上げた企業の他にも、スクレイピングを禁止しているところがあります。許可されていないサイトでスクレイピングを行うことは避けたいものです。下記の方法で確認しておきましょう。

利用規約やポリシーを確認する

該当のサイトがスクレイピングを許可しているかどうかは、利用規約やポリシーを見ると判断できます。
なお、利用規約などでスクレイピングを禁じていても、明確に「スクレイピング」という言葉を使っていなかったり、難しい法律用語を含めて記載されている場合があるため注意が必要です。
よく確認せず安易にスクレイピングを行うと法律に触れる可能性も出てきます。利用規約やポリシーはきちんと確認しましょう。

robots.txtでのアクセスの可否

スクレイピングはボットを使うと効率よく情報収集できます。そのため、スクレイピングを禁止しているサイトでは、スクレイピングの動作のコントロールに使用するrobots.txtのアクセスも拒否しています。
スクレイピングを許可しているかどうかは、対象のWebサイトのURLの末尾に「/robots.txt」と入力すると確認できます。「Disallow」は拒否、「Allow」は許可を意味します。
また、「User-agent」と表示されれば、Webサイトを巡回するすべてのクローラーが対象となります。

スクレイピングの対策技術例

スクレイピングの対策技術例
スクレイピングを禁止するサイトでは、技術的な方法で対策を講じています。比較的よく知られている技術や方法をピックアップしてご紹介しますので参考にしていただければと思います。

ログイン

会員専用などログインが必須のWebサイトは、情報収集に際してログイン方法を知っている必要があるため、実質的にスクレイピングを防止できます。
ただし、ログイン方法を入手し、実際にログインしてCookieを保存すると再度ログインする必要がなくなるため、スクレイピングは可能になります。

Captcha

Webサイトを開こうとしたときに、「私はロボットではありません/ I’m not a robot」という表示とともにチェックマークを入れる画像が現れ、特定の写真を選択するよう促されるのを見たことがあるかもしれません。
また、画面に表示されたひらがなやアルファベットを入力するよう求められる経験をした方もいるでしょう。
これらは、Captchaと呼ばれるスクレイピング防止技術になります。サイトの使用者が人間かロボットかを見分けて、スクレイピングを防いでいます。

IPブロック

スクレイピングは、人間が行なえる以上の膨大なリクエストを短時間のうちに送信して行います。その特性を感知してスクレイピングを阻止する仕組みが、IPブロックです。
一定時間当たりの訪問数と頻度の閾値を超えたものはスクレイピングと判断され、その通信を遮断します。IPを定期的に変更するといった対策を講じると、ブロックされるリスクは低くなるため、万能ではありません。

スクレイピングは違法ではないが注意して行おう

スクレイピングは法律の観点からすると違法ではありませんが、使い方を間違えると著作権やプライバシーを侵害する危険性があります。
また、スクレイピングを禁止しているサイトの規約は尊重すべきでしょう。Webサイトによっては「Web API」によりスクレイピングで得られる情報を公開していますので、上手に活用したいものです。
Webスクレイピングは違法?禁止サイトの確認手段や適切な方法を紹介
最新情報をチェックしよう!