スクレイピングした物件データを利用した物件検索サービスは問題ないのか
スクレイピングとは、サイト上のページの内容をHTMLで解析して(大したことではないし、大昔からある)データとして取得する、という手法を言います。
昔なら、Perlの正規表現でワンライナー、またはHTMLパーサーをかましてDOMにQueryかけたり、Linqで料理したり・・・最近ではノーコード、ローコード?
スクレイピングするのは大抵、そのサイトがRSS/Atomフィードやその他のXML形式などの扱いやすいデータを配信していない為、データとして利用するにはむりくりページ表示用のHTMLを解析して扱いやすいデータに整形する必要がある、という場合です。
サイト側が扱いやすいデータとして配信していないのは、単なる不親切か、一般にその必要性がないと思われている情報か、データを再利用してもらいたくない何か理由があるか、のいずれかです。
そこで、今、たまたまこんなのを見つけてしまったのですが・・・
個人開発でこういうのをやるのは好きです。
自分も大昔、物件検索システム作りました。(大昔だから、Ajaxも無く、GoogleやAmazonのクラウドも無かった、CGIだよ、バカにすんなwww)
応援したいです、はい。
ただし・・・・・物件情報データを他の検索サイトからスクレイピングして取得してる・・・それも無断。
これ、どんな問題が絡んでくるのか、一般の方々はなかなかご存知ないとは思いますので、いい機会なのでまずは一般論として説明しておきたいと思います。
不動産業界では、以前よりレインズのサイトの物件情報をスクレイピングして無断転載するなどは問題になっていて、レインズにおいては禁止されてます。これには後述するような色々な理由もあるのですが、特に、レインズは業者間向けのデータですから守秘義務も関係し(「取引に係る生の情報」は貸主・売主の特定に繋がるため「個人情報」に該当する)、守秘義務の無い非不動産業者による認証を回避した不正アクセスは禁止、という意味もあります。(あと、レインズのサーバー極端にショボいので普段からアクセス過多で落ちまくるからというのもある)
*誤解やデマも多いようなので、「レインズの情報を一般公開できない理由とは」と「巷の「レインズの『オープン化』論」の論点を整理してみる」を書きました。
*レインズの問題については別途「不動産流通機構:あらためてレインズの問題を考える」を書いているのでご興味ある方はどうぞ。
では、レインズ以外の、一般向け物件検索サイトのページをスクレイピングするのはどうでしょうか。
自分が一人で個人的にやる分には全然問題ないと思いますよ。過剰にアクセスさせてサイトに負荷をかけたりしない限り。個人利用です。
では、そのデータを利用または転載して別の一般向け物件検索サイトとして公開する場合はどうなのでしょうか。
これ、データを利用または転載してサービスとして利用する場合は、まず元サイトに許可をとるのが普通だと思います。
著作権法上の問題を踏まえていうと、この場合、単なる「所在検索サービス」ではなく、あえて言うと「所在検索サービス」自体のデータをスクレイピングして丸コピするみたいな話しに近い(つまり、語弊はありますが「所在検索サービス」であるGoogleのデータを丸ごとスクレイピングして二次利用する、みたいな)、または所在だけでなく家の中まで入って晒すような(著作権法上の「軽微利用」とは・・・)ことでありまして・・・単に著作権法で云々だからOK・・・、で済む話しでは無いのではないかと思います。
さらに法的な話しで言えば、不動産物件の情報を公開して広告する場合、宅地建物取引業法という法律の他に、景表法という法律、およびそれに基づく不動産公正取引協議会の不動産の表示に関する公正競争規約、の遵守が必要となります。不動産業者としては、これらを遵守しながら物件広告を出稿し、物件検索サイト運営者も同様にそれらを遵守するよう努めている訳です。
なので、元サイトのデータがそれを意識していれば、そこのデータを全て全項目まるまるコピーして全転載している限り、「表示項目と内容上」、「一応」は転載先も、それらに準拠した情報とはなり得るでしょう。逆に言えば、もし一部の項目だけの転載で、前述した関連法規の法令上の必須項目を端折っていたら法律違反となるわけです。
また、インターネットに物件情報を公開して募集する物件情報は「広告」になり、申込が入った時点で募集を取り下げないと「おとり広告」(前述した関連法規の違反)となってしまいます。なので、物件情報はどこに流れてどこに掲載されるのかはすべて把握しておく必要があります。すぐに取り下げ、変更が出来るように。
消費者としては、せっかく気に入った良い条件の物件があったので、問い合わせてみたら「あ、その物件もう決まってました、それよりコッチどうですか?」とか言われることほど腹の立つことはありません。ふざけんな、と。
近年は「客付け」業者が2次広告をすることも非常に増えて、物件情報の質が落ちるにつれ、トラブルも増えています。
そのため、物件情報を2次広告する場合は、「元付け」といって、物件の貸主と媒介契約を結んだ元の不動産業者から許諾をとることになっています。「広告承諾書(広告活動承諾依頼書)」(サンプルPDF)といって書面による承諾を取ります。その中では具体的な広告媒体(ポータルサイト名等)を明示する必要があります。貸主があんまり(空きなのを知られたくない)広告したくない、という場合もありますしね。
そもそもの話しをすれば、物件は貸主(厳密にはオーナー)のものですから。追記:>関連で、「不動産の『物件データ』は誰のものか」を書きました。
中には悪い業者もいて、他社の物件情報をスクレイピングで取得して、それを自社の広告として他の物件検索サイトへ転載する、という卑劣なことをする輩も居ます。不動産業者が苦労して貸主と媒介契約を結び、足で集めて登録した情報を、別の不動産会社が無断で自社広告として利用(転載)してお客さんを集めて自らのところで契約させようとする行為(中抜き)で、これは不動産業者としても、いや誰から見てもなんとしても絶対に許すべからず、という所であります。(アパマンショップがやってたけど、そういうところは客としても絶対に利用しないほうが良いです。コンプライアンス精神がないところは、客に対しても騙しても良いという考え)
因みに、広告承諾書に絡んでか絡まずか、「広告宣伝費(AD)」というお金が絡んでくる不動産業界の闇チックな話しもあるのですが、それはそれでまた大きな別件の話しなので自粛しますw
つまり、元サイトに許可を取らないスクレイピングによるデータを利用した不動産物件情報は、元サイト運営側が「元付け」の業者にあらかじめ承諾を得ていない限り、承諾なしの不動産広告「無断掲載」となります。
承諾のない無断掲載された物件広告は、不動産公正取引協議会から、「~【注意】物件情報の無断掲載はトラブルの元~」という注意勧告も出ています。
無断掲載は業者間における「信義にもとる」行為であるだけでなく、「中抜き」とか「おとり広告」になり易いことは間違いなく、違反すれすれ?限りなくグレー?トラブルの元?
さらに、第三者が無断掲載する場合、2次広告でちゃんと承諾を得ていた場合、「掲載する媒体」で合意していないサイトに勝手に掲載されてしまうと、元付け業者だけではなく、2次広告をするために「元付け」業者と合意をした「客付け」業者も合意違反状態となって困った立場になります。
もし「おとり広告」などとなって消費者とトラブルになった際、掲載している側にも一定の責任問題が発生するでしょう。その責任を負うことが出来ますか?という話しでもあります。自分は転載しただけだ、というのは通じないと思います、特に承諾の無い無断転載の場合。無断転載が原因で「おとり広告」となってしまったら目も当てられません。
こういった諸々もあり、まず元サイト運営側か、または「元付け」の業者がダメと言えば、ダメな話しとも言えます。通常、利用規約にダメ、とか書いてあります。マイナーなサイトでは、単に「あ、利用規約書き忘れてた」とかいうだけの場合もあるかしれませんが。結局は無断でただ乗りされた元サイト運営側と揉め事になる可能性があります。元サイト運営者としても、元付け客付け間の合意の件もありますし、「おとり広告」になりかねないトラブルの元になるようなことに責任持てないでしょうし、持ちたくないからそもそも関わりたくはないでしょう。
いずれにせよ、無断の場合、万一スクレイピングして転載した検索サイトを営利でやったら、かなりマズイだろうとは言えます。無償でやる場合は、利益もないのにリスクばかり負う、ということになりかねません。(元サイトの仕様が変わったらスクレイピングもそれに合わせて変更する手間もある)
で、今回のサービスに限って言うと、現時点では、一覧から先は元サイトの詳細ページに飛ばしているだけのようなので、まぁ、元サイト運営者次第というかなんというか、色々な意味で微妙なところなんじゃないでしょうか。
まぁ運よく、トラブルや揉め事が起きる前に「It's easier to ask forgiveness than it is to get permission(「事前に許可を得るより、あとで許してもらうほうが楽」)」となれば良いんですけどね。そしたらわざわざスクレイピングする必要も無いし。
その他法律的問題は弁護士に聞いてください。なげやり。
追記:
まぁ、そうなるわなぁ。
追記:(2021/07/31)
「不動産業という魔界」という後日譚を書きました。
追記:
一応、こういう弁護士の意見もありました。
追記:
関連で「日本の『不動産テック』が誇る最新技術とは?スクレイピングとCSV弄り?」を書きました。
追記:
再度復帰した模様。
再び立ち上がる根性は大好き。今度はSUUMOのデータを使っている模様。<SUUMO的にどうなのかは知りません。
この件、「例のスクレイピングしてる不動産物件検索が復活している・・・(で、結局「悪の黒い不動産屋」、という話に・・・Orz)」を書きました。