【ウェブ解析】ウェブサイトの仕組みを理解するにあたり必要な用語まとめ

ウェブ解析が学べるノート(ウェブねこ)

2018年5月19日 20:14

サイト表示の仕組み

ブラウザーを開いてウェブサイトにアクセスすると、ウェブの裏側では以下のような動きが行われています。

サイトの裏側では上記のような仕組みが動いているのです。

そしてそういったアクセス状況がウェブサーバ側で常に保存される仕組みが自動的になされています。

そのサイトアクセス状況を記録したデータをアクセスログと言います。

サイトをブラウザー上で表示させるためにHTMLのみを読み込むことでページが表示され、その一連の動きがアクセスログとしてサーバ側に自動蓄積されると思いがちです。

しかし、実際にはそれだけでなくHTMLページ内から参照している画像ファイル、CSSファイル、JavaScriptファイルなどもアクセスログに記録しています。

・アクセスログ

生ログやローデータとも表現されます。どれも同じ意味と捉えていいでしょう。例えば以下のような文字列がアクセスログ。ではそれぞれ意味を解説していきます。

1：接続元ホストのIPアドレスのことです。IPアドレスは、ほとんどの場合インターネット接続プロバイダのIPアドレスとなります。

2：BASIC認証のユーザ名のことです。ディレクトリに対してユーザ名とパスワードでBASIC認証を行っている場合はユーザ名が表示されます。BASIC認証を設定していない場合には「-」と記録されます。

3：日付のことです。アクセスのあった日付と時刻が記録されます。

4：リクエスト記録のことです。WEBブラウザからサーバーに送られたリクエスト(web上でのデータのやり取り)が記録されます。

例では、GETコマンドで「www」ディレクトリ内の「index.html」というファイルを取得するというリクエストの記録となります。

5：ステータスコードの数字のことです。WEBブラウザからサーバーへのリクエストに対して、サーバーからの返答結果(成功・失敗など)が記録されます。ステータスコードについて詳しくは後ほど解説していきますのでご安心を。

6：バイト数のことです。サーバーからWEBブラウザに引き渡されたデータのバイト数が記録されます。

7：リンク元URLのことです。サイト流入する直前に訪問していたサイトのURLが記録されます。

WEBブラウザのブックマークやURL直打ちして直接アクセスされたケースにはリンク元情報が取得できません。そういった場合には「-」と記録されます。

8：WEBブラウザの種類のことです。訪問者が利用しているWEBブラウザの情報です。WEBブラウザの種類・バージョン・OS などが記録されます。情報がない場合には「-」と記録されます。

ヒット数

ウェブページを開いた時にHTMLファイルが一枚だけ表示されているように見えますが実際にはHTML以外にもCSS、JavaScriptなどのレイアウト情報やテキスト関連のファイル、GIFやJPEGなどの画像、動画ファイルまで様々なものが読み込まれます。

アクセスログにはこれらのアクセス情報も保存されます。この１つ１つのファイルにアクセスした履歴のことを「ヒット数」と呼んでいます。サイト集客にあたりあまり活用することはありませんが、知識として知っておくことは良いことだと思います。

アクセスログの理解

アクセスログの表示形式には実は様々なフォーマットがあります。ウェブサーバーの設定や種類によって様々です。アクセスログ形式を理解することで記録されているデータの意味を理解することに役立ちます。

・Common Log Format

世界で最も利用されているウェブサーバであるapacheのログフォーマットである「Common Log Format」を例にとって解説します(下記参照)。

・Combined Log format

Common Log FormatにプラスしてOSやブラウザの種類などのユーザーエージェントと参照元情報を追加したフォーマットがCombined Log formatです。今日ではこのフォーマットの活用が一般的です。

ステータスコードの理解

ステータスコードとはサーバーへのリクエストに対してウェブサーバーのレスポンス状態を表す3桁のコードを言います。こういった情報を知っておくことで、サイトに問題が起きた際にサイト状況をあるべき姿に修正するための行動が素早く取れます。

ユーザーエージェントの理解

ユーザーエージェントとは通信に利用するソフトウエアやハードウェアを認識するための文字列のことです。OS名アプリ名、それらのバージョン名が含まれます。

また、ユーザーエージェントを元に以下の情報が参照可能です。

・OSの種類

・ブラウザの種類

・携帯端末からのアクセスの場合、キャリア名など

他の利用目的としては、ウェブサーバに対し、ユーザー環境に合わせた最適なレンダリングデータ(OSやブラウザーに合わせたサイト表示を行うためのデータ)を返す目的でもユーザーエージェントは利用されます。

アクセスログ解析の方式

アクセス解析のためのデータ取得方法は下記のように主に3つあります。状況に応じてアクセス解析に用いるかどうかを検討してください。

・サーバログ方式

・パケットキャプチャ方式

・ウェブビーコン方式

サーバログ方式

サーバにアクセス解析用のソフトウェアをインストールすることがあるため、しばしばサーバインストール方式とも呼ばれます。

ウェブサーバはブラウザからのリクエストごとにユーザーのアクセス履歴などのデータをログファイルに保存しています。

そのログファイルを活用して解析に役立てた形にしたのがサーバログ方式でのアクセス解析になります。

パケットキャプチャ方式

インターネットを流れるデータをパケットといいます。そのパケットをに着目したのがパケットキャプチャ方式の解析です。

ブラウザとサーバ間を流れるパケットを収集(キャプチャ)し、その状況をアクセス解析マシンに送信し、解析する技術がパケットキャプチャ方式です。

ウェブビーコン方式

ウェブサイト(HTML)に解析用のJavaScriptタグを挿入し、アクセスログを解析用のサーバに送信することでアクセス解析する方式です。

ファーストパーティクッキーとサードパーティクッキー

現在、多くのウェブビーコン方式の解析ツールではユーザーの判定にCookieを利用しています。

Cookieとはブラウザにユーザー行動履歴などの情報を一時的に保存する仕組みのことを言います。あのおいしいCookieのことではないことに注意しましょう。クッキーには以下の2種類があります。

以上でウェブ解析に必要な準備としてサイトの仕組みを理解するための知識をお話ししてきました。

まずはウェブ解析で事業の成果につなげるための土台となるウェブの仕組みについて十分に理解することが必要なので、しっかりと学んでいきましょう。