見出し画像

第1回 過去のアクセス状況が知りたい!

【登場人物】

IT営業アシスタント。上司にネットでの製品PRを命じられ、ウェブサイトを作ることになった。ただ、でき上がったサイトをどう運営していけばいいかわからず悩んでいる。

元SE。今はアクセス解析ツールの営業。
Webマーケティングについてお客様に日々説明をしている。

アクセス解析の技術者。
アクセス解析の重鎮、生き字引、サポートの鬼。
アクセス解析でわからないことがあれば何なりと。


五島さん、田上さん、相談させてください。昔のサイトの解析をすることはできるのでしょうか。

おや、どうしたのかな?

同僚からの質問で、別のサイトのアクセス状況を確認したいと言われました。そのサイトにはGAを導入していなかったのですが、解析は可能なのでしょうか?

解析サービスを導入していないサイトの解析がしたいのかな。
条件はいくつかあるけど、アクセスログ解析ツールを使えばできると思うよ。

アクセスログ解析とはなんでしょうか?

一般的には、「サーバーログ型」解析と言われています。
サーバーログ型解析のメリットは、過去ログさえあれば、過去に遡って解析できる点だね。一方、GAはタグ(ビーコン)型解析と言われており、解析したいサイトにGAタグを埋め込んでからの解析しかできないので、過去に遡及することはできませんね。

過去のログデータをもとに解析ができるのですね。
タグが設置される前のデータを解析できるのは「サーバーログ型」の大きな強みとなるわけですね!

そう。じゃあ今回はWebサーバーの仕組みとログについて見てみよう。
ブラウザがウェブサイトのページを表示するというのは、URLと紐付けされたIPアドレスのWebサーバーに対して「このページのデータを送ってください」というリクエストを送ることから始まるんだね。
リクエストを受け取ったWebサーバーは、リクエストを送信したブラウザに対して、HTMLのデータを送る。このあたりはIP(インターネットプロトコル)とかポート番号とかもっと技術的な手順があるんだけど、アクセス解析とはあまり関係ないから省略するね。

データを受け取ったブラウザは、データの内容を解釈して画面に描画を始める。その時に画像を挿入しろとか、Javascriptのプログラムを実行しろとか書いてあると、再度Webサーバーにリクエストを送ってデータを受け取る。これを繰り返して1つのページが表示されるんだ。

なるほど、そうやってページが表示されるんですね。
技術の裏側を知ると、普段何気なく見ているウェブページがどれだけ複雑な仕組みで動いているかがよくわかります。

この時、Webサーバーはいつどこからどんなリクエストを受け取って、どれだけの量のデータを送ったかを記録しているんだ。これを「ログファイル」という。
ログファイルにはブラウザやOSの種類や、そのリクエストを送る直前に表示していたページURL(リファラやイニシエータともいう)が記録されるんだ。

ブラウザがリクエストを送るたびに、Webサーバーはそのリクエストに関する情報をログファイルに記録するんですね。
実際にどういった情報が記録されているのか、具体的なログファイルを見てみたくなりました。

ログファイルの形式にもいろいろあって、Webサーバーのソフトウェアによって変わってくる。
代表的なのは・・・

  • Apache:NCSA
    各情報項目が空白文字で区切られ、情報内に空白文字がある場合はダブルクォートで挟まれる形で保存される。項目の名称や順番に関する情報は含まれていない。

  • IIS:W3C
    各情報項目が空白文字で区切られ、情報内の空白文字は「+」記号や「%20」のようなエンコードが施される。ファイル先頭に、項目名がコメント文として出力されるため、どの項目が何を意味するか分かりやすい。

  • nginx:NCSA または タブ区切り
    各情報項目はタブで区切られるため、情報内に空白文字があってもそのまま出力される。各項目には全てに項目名が付けられているので、データの取り出し時には項目名を削除する必要がある。

あたりかな。

サーバーログ型解析を図式すると、以下のような感じになります。イメージが掴めるかな?

なるほど、そのログファイルがあれば、GAが使われていないサイトでもアクセス状況がわかるんですね。

そうだね。ただ、ログファイルにはページビューのアクセスだけでなく、画像やスタイルシート(CSS)、スクリプトファイルのアクセスも記録されているから、それをフィルタリングする必要があるんだ。また同じIPアドレスから同じブラウザでアクセスされたら、同じ訪問者と判定してビジットの集計を行う必要もある。

そういうことに対応しているツールは何種類かあるけど、次回はそれぞれの特徴を見ていこう。

本日の用語
アクセスログ解析
サイトのアクセス状況を解析する手法。アクセスログを使って解析を行うこと。

サーバーログ型解析
サーバーが記録したログファイルを用いてアクセス解析を行う手法。過去のログデータを基に解析できるのが特徴。

ログファイル
サーバーがアクセスログを記録するファイル。リクエストの情報やデータの送受信の履歴を含む。

NCSA(National Center for Supercomputing Applications)
Apacheが使用するログファイル形式。各情報項目は空白文字で区切られる。

W3C(World Wide Web Consortium)
IISが使用するログファイル形式。各情報項目は空白文字で区切られ、ファイル先頭に項目名がコメント文として出力される。

nginx
高性能なWebサーバーソフトウェア。NCSA形式やタブ区切り形式のログファイルを使用する。


関連リンク


この記事が気に入ったらサポートをしてみませんか?