見出し画像

リファラースパムとGA4での対策法

今週もウェブ解析士のnoteをご覧いただきありがとうございます。
先日、とあるウェブサイトのアクセス解析を行なっていたら、特定の日だけセッション数が伸びていました。「この日何かのメディアに載ったのかな?」とか能天気なことを考えながら調べていたら、【リファラースパム】を受けていることがわかりました。
デジタルマーケティングでは、データは極めて重要です。しかし、リファラースパムが正確な分析を妨げます。知識がなかったらぬか喜びしているところです。ということで、今回はリファラースパムについて、そしてGoogle AnalyticsのGA4を使った対策について書いていこうと思います。


リファラースパムとは?

リファラースパムの定義

リファラースパムとは、偽のリファラー情報を使ってウェブサイトにアクセスし、アナリティクスデータを歪める行為です。これにより、ウェブサイトの分析結果に不正確な情報が提供されてしまいます。
スパムをする側の目的としては、アクセス元を確認する人をスパムサイトに誘導するというものがあります。アクセス解析していると、どんなサイトから自社サイトへ来ているのか確認することもありますよね。その特性を使ってアクセスさせたいサイトへ誘導するようです。

リファラースパムの影響

リファラースパムにより不正確なトラフィックデータが生成されると、ウェブ担当者やマーケターが誤った意思決定を下す恐れがあります。また、サイトのパフォーマンスやユーザーエンゲージメントの評価が不正確になるため、マーケティング戦略の効果を正しく測ることができなくなります。

「Unassigned」と「Not Set」

「Unassigned」とは

今回気付いた理由は、デフォルトチャネルグループ「Unassigned」が極端に多かったからです。普段あまり見ないチャネルですねぇ。Googleの公式ヘルプには以下のように書かれていました。

「unassigned」は、イベントデータに一致するその他のチャネルルールがない場合に使用される値です。

https://support.google.com/analytics/answer/9756891

要するに、既存の振り分けルールに当てはまらないものをまとめUnassignedにしているということです。

「Not Set」の原因

さらに深掘りして、参照元/メディアを見てみると(not set)となっていました。
GA4のレポートに「Not Set」と表示される場合、収集されたデータの一部が不完全または欠落していることを意味します。リファラースパムはこの「Not Set」値が頻繁に表示される要因の一つとなり得ます。
GA4ではsession_startのイベントが発生しないセッションの参照元/メディアが(not set)になるようです。
セッションスタートしないセッションってなんだ???
おそらくsession_startのイベントが発生する前に一瞬で離脱したものなのかなと考えます。

「Not Set」の問題点

「Not Set」の値は、分析データの信頼性を損ない、適切なマーケティングの意思決定を妨げます。データの正確性が損なわれれば、戦略の調整や効果測定が困難になります。

アナリティクスレポート内でのリファラースパムの特定

スパムの兆候を識別する

リファラースパムの特徴としては、これまで記してきたように、いきなりトラフィック数が伸びるとか、無関係のリファラーからのアクセスが集中するとか、特定の国からのアクセスが集中するといったものが挙げられます。

偽トラフィックの分析

スパムトラフィックは一般に、短い滞在時間、高いバウンス率、異常なリファラーソースを特徴とします。今回の場合もsession_startイベントが発生しない(セッションが多数)という異常性が見られました。これらの特徴を分析することで、正規のトラフィックとスパムを区別できます。
今回は、ユーザーの参照元を確認するとurlumbrella.comという割と有名なリファラースパムの参照元が出てきたのでわかりやすかったです。

GA4でリファラースパムに対抗するステップ

ボットフィルタリング

そもそも、GA4では既知のbotトラフィックは自動的に削除されるようになっているそうです。

Google アナリティクス 4 プロパティでは、既知の bot およびスパイダーによるトラフィックは自動的に除外されます。これにより、既知の bot によるイベントは、アナリティクスのデータから可能な限り排除されます。現時点では、既知の bot トラフィックの除外をオフにしたり、除外された既知の bot トラフィックの量を確認したりすることはできません。

https://support.google.com/analytics/answer/9888366

参照元の除外

今回のように、特定の参照元が悪さをしている場合はその参照元ドメインをデータに含まないように設定すればいいですね。
その場合、【設定→データストリーム】で「ウェブストリームの詳細」を開きます。「Googleタグ」の「タグ設定を行う」を開けば「除外する参照のリスト」という項目があるので、除外したい参照ドメインを追加することができます。

Googleタグマネージャーを利用した対策

上記の参照元の除外でもうまく機能しなかった場合はGTMからも同様の除外設定を行うことができます。
まずはトリガーの設定です。トリガータイプをページビューにして、トリガーの発生場所をReferrer(除外したい参照ドメイン)に設定します。
GA4の計測タグのトリガー条件に例外項目として、新しく作成した除外用のトリガーを追加します。これで公開すれば、除外されるようになります。

GA4でのデータ整合性維持

定期的なデータ監査の重要性

データの整合性を維持するには、設定したフィルターの検証や異常値のチェックなど、定期的なデータ監査が不可欠です。
定期的に変なデータがないか見ておくのが重要です。LookerStudioで表面上の指標チェックをするだけでなく、定期的に参照しているデータが正確なものか確認しておきたいですね。

フィルターの更新と管理

スパマーは常に手法を進化させているため、新たに検出されたスパムに対応するとともに、フィルターを定期的に見直し更新する必要があります。
イタチごっこですし、過去データはそのままなのでモグラ叩き状態になりますが、致し方ないですね…

まとめ

リファラースパムはデジタルマーケティングの意思決定を阻害する要因となりますが、適切な対策を講じることで影響を大幅に軽減でき、より正確で信頼性の高いデータに基づいた意思決定が可能になります。データの整合性維持への取り組みは継続的に行った方が良さそうですね。そのためにもGA4やGTMの使い方を学んでおきたいです。

あとがき

今週も最後までお付き合いいただきありがとうございました。
おかげさまで、100週連続投稿=100記事めとなりました。このnoteを始めた時の最初の目標でもありました。本当はもっと100週目っぽいテーマを探していたのですが(それがどんなものか分かりませんが)、結局通常運転でしたね。まぁ、そんなものなのでしょう。笑

これからも投稿頻度を維持できるかわかりませんが(主にネタ探しで笑)、これからも皆さんと一緒に学んでいけるアカウントを目指して、いろんなテーマを取り上げていきたいと思います。
これからもお付き合いいただければ嬉しいです。
それでは、またお会いしましょう。

この記事が気に入ったらサポートをしてみませんか?