![見出し画像](https://assets.st-note.com/production/uploads/images/171150423/rectangle_large_type_2_1f29cb6cebb54601af4c563f5364a76c.jpeg?width=1200)
Matomoな日々「第4回 アクセスログファイルについて」
Matomoが利用できる環境ができたので、Webサーバーのアクセスログファイルを読みこませて集計を行おうと思いますが、その前にそもそもログファイルがどんなものかを理解しておきましょう。
アクセスログファイルとは
Webサーバーがブラウザ等のクライアントからリクエスト(URL)を受け付け、レスポンス(ページ等のデータ)を返したときに記録されるログファイルです。
レスポンスを返すたびに、1行のデータとしてファイルに出力されます。これにはいわゆる「ページ」の情報だけでなく、画像やCSS、JSのリクエストも含めて記録されます。
主な記録される項目は
アクセス日時
ホスト(アクセスしてきたPC等のグローバルIPアドレスまたはホスト名)
ページパス
HTTPステータス
送信バイト数
リファラ
ユーザーエージェント
です。
この他にも設定によっては
認証ユーザー名
クッキー
アクセスメソッド(GET、PUT、HEAD等)
受信(リクエスト)バイト数
が記録される場合もあります。
一般的に、サーバーは「ログローテート機能」により、ログファイルを1日または1週間ごとにまとめ、今出力されつつあるログファイルと切り離して保存します。
アクセスログ解析に使用するのは、この「切り離されたログファイル」を使用することが推奨されます。出力が継続しているログファイルは、続きだけを解析対象にするのに一工夫が必要で、手間が増えるためです。
アクセスログファイルの形式
Webサーバーソフトウェアの種類によって、ログファイルの形式(フォーマット)は違います。
代表的なWebサーバーですと、以下のようになります。
Apache
Linux環境では標準的なWebサーバーです。
各カラムは半角スペースで区切られ、空白を含むデータはダブルクォーテーション(”)で囲まれます。
カラムは以下の順番で出力されます。
ホスト
クライアント識別子
認証ユーザー名
日時
リクエスト
HTTPステータス
送信バイト数(ヘッダーは含まず)
リファラ
ユーザーエージェント名
この形式を「NCSA combined」形式といい、リファラとユーザーエージェントを出力しないものを「NCSA common」形式と言います。
アクセス解析ではリファラは参照元、ユーザーエージェントはビジターの特定に使用されますので、combined形式に設定しておくことが重要です。
図にすると、以下のようになります。
![](https://assets.st-note.com/img/1737533316-gtpoCj8quSxkAnfmZFLXPebd.png?width=1200)
Internet Information Services(IIS)
Windowsで標準的なWebサーバーです。
各カラムは半角スペースで区切られ、空白を含むデータは、空白文字を「+」に置き換えて出力されます。
ファイルの先頭(またはIISを再起動した時点)には「#」でコメントアウトされたサーバー情報等が複数行出力されます。
またこの中にはカラムの順番を示す「#fields:」で始まる行があります。
一般的なカラムの順番は以下の通りです。(カッコ内はfields行で表示されるカラム名)
日付 (date)
UTC時刻 (time)
サーバーIPアドレス (s-ip)
アクセスメソッド (cs-method)
リクエストページ (cs-uri-stem)
リクエストパラメータ (cs-uri-query)
サーバーポート番号 (s-port)
認証ユーザー名 (cs-username)
クライアントIPアドレス (c-ip)
ユーザーエージェント (cs(User-Agent))
リファラ (cs(Referer))
HTTPステータス (sc-status)
HTTPサブステータス (sc-substatus)
Windowsステータス (sc-win32-status)
リクエスト処理時間(ミリ秒)(time-taken)
この形式は「W3C」形式といいます。
(W3Cとは「World Wide Web Consortium」の略称で、Web技術の標準化を行う非営利団体の名称です。)
Nginx
比較的新しいWebサーバーで、現在ではApacheよりシェアが上回っています。
Apacheが動的ページを生成して配信するのを得意とするのに対して、Nginxは静的ページを高速・大量に配信するのを得意としています。
ログ形式は、基本設定ではApacheと同じ「NCSA combined」形式で出力されます。
アクセス解析データとしてのログファイル
アクセス解析で必要な情報は、ほとんどログファイルから取得できます。
しかし、ログファイルに記録されないアウトリンク(対象サイトから別のサイトに出て行ったときの移動先情報)やPOSTメソッドで受信したデータなどは、タグ型解析や組み込みのツールが無ければ対応できません。
しかし、アクセスログ解析は、「ログファイルが存在すれば過去の時点の情報が得られる」というタグ型解析にない強みを持っています。
じっくりとアクセス解析に向かい合うにはよい手法だと思います。
次回は、Matomoにログファイルを読みこませて、いろいろな解析を行ってみましょう。
関連リンク
サイオステクノロジーは2014年から国内でのテクニカルサポートをサービスとして立ち上げて提供しています。
・サイオステクノロジーのMatomoサービス: https://sios.jp/lp/matomo/
Matomoは欧州の開発チームが中心となって開発されています。
・Matomo公式サイト: http://matomo.org/
日本での利用拡大と翻訳などを担っているのがMatomoユーザー会です。
・日本Matomoユーザー会:https://matomo.jp/
Matomoの追加機能を集めたサイト
・Matomoプラグインマーケットプレイス:https://plugins.matomo.org/