WorldPressプラグイン-2'（補足：サイトマップ）｜エジニアとしての備忘録#５

Mr. 羊（シープ）

2024年5月24日 13:25

現状：Googleにサイトマップを登録した。

サイトマップの重要性を理解すると、何となくgoogleの検索の仕組みが見えてくる。また、Google Search Consoleの使い方の助けにもなる。

先に結論。（結論を念頭に入れて読むことをお勧めする）
・XML Sitemap：クロールに必要なプラグ
・WebSub：インデックスに必要なプラグ

サイトマップとは？

サイトマップとは、サイト内のページ構造をリスト形式のこと。
前回、サイトマップには「HTMLサイトマップ」と「XMLサイトマップ」の二つがあると書いた。
ここでは両者の違いを簡素的にさらっと説明する。

Googleに媚びるためのサイトマップ

まず、個人のWEBサイトのSEO対策で、主に必要となるのは「XMLサイトマップ」である。これを作成し、Google Consoleにサイトマップとして登録することで、Google検索エンジンの特徴であるクロール・インデックスを促せる。

はっきり言おう、2024年はSEO対策をGoogle特化で問題ない。
近年の検索サービスの動向として、Microsoftの「Bing」も人気が出ている。その理由はCopilotによるGPT-4の導入だと思うが、それでもシェア率は微々たるものだ。
以下のサイトは検索エンジンのシェア率の動向を示している。
Global search engine desktop market share 2024 | Statista

Googleのシェア率は以前ぶっちぎりなことが見て取れる。
Googleの創設者二人の画期的なアイデアは、検索エンジン界を圧巻した。是非読んでおくと学が深まるであろう。

※参考論文：The Anatomy of a Large-Scale Hypertextual Web Search Engine (research.google)
※セルゲイ・ブリンとラリー・ペイジの学生頃の論文

XMLサイトマップとHTMLサイトマップ

では、HTML側のサイトマップは何者であろうか？
両者の違いは開示する構造形式にある。要するに、目的とする対象が異なる
ということだ。

＜対象＞
　HTMLサイトマップ：WEBサイトの訪問者（ユーザー）
　XMLサイトマップ：検索クローラー

HTMLサイトマップ：
HTML形式ファイルを登録するので、コンテンツの位置などのユーザ目線の情報になる。HTMLの構造を見ればわかるとおり、特定目的のタグでサイトマップを開示することになる。

見た目重視型。

HTMLとは、WEBサイトなどを作成するうえでフロントエンドとして記述されるマークアップ言語のこと。
特定のヘッダ（h1/h2/~）やパラグラフ（p）などの各要素（エレメント）を、タグをとして定義する。
例えば、以下のイメージがHTMLの例だ。
(参照：https://www.w3schools.com/html/default.asp)

<!DOCTYPE html>　
<html>
<head>
　　<title>Page Title</title>
</head>
<body>
　　<h1>This is a Heading</h1>
　　<p>This is a paragraph.</p>
</body>
</html>

XMLサイトマップ：
HTML形式ファイルを登録し、WEBサイト内にあるURLや動画・画像ファイルの情報を開示する。個別目的に応じたタグを指定するので、検索エンジンに対してサイトの構造とページの更新情報を提供できる。
つまり、クローラーがURL（Link）を探しやすくなるということ。

中身重視型。

XMLとは、HTMLに似ているが目的が違う。
どちらも木構造であるため、形式や書き方はとても近い。
だが、HTMLはデータを表示することを目的するのに対して、XMLはデータを運ぶことを目的とする。これは一種のパラメータの定義であり、内部で使用することが前提だ。
例えば、以下のイメージがHTMLの例だ。
(参照：https://www.w3schools.com/xml/default.asp)

<?xml version="1.0" encoding="UTF-8"?>
<note>
  <to>Tove</to>
  <from>Jani</from>
  <heading>Reminder</heading>
  <body>Don't forget me this weekend!</body>
</note>

XMLサイトマップの必要性

Googleの検索エンジンの仕組みは、ざっくりとこんな感じだ。

クロール（※ウェブページの発見）
インデックス（※ウェブページの認識・解析）
ページランク

ここからはざっくりと書く。
まず、主要な登場人物を覚えよう。
①クローラー　②インデクサ　③URLリゾルバ

The Anatomy of a Large-Scale Hypertextual Web Search Engineから
Note：他の細かい登場人物はここでは割愛する。

フローとしてはこんな感じ。

クローラーがインターネットを徘徊して、ウェブページ探し出してくる。（クロール）
インデクサがクローラーの見つけたウェブページを解析する。（インデックス）
URLリゾルバがランキングを行いデータベースに登録する。（ページランク）

とにかく大事なのがクロールとインデックス。ページランクはGoogle創立のきっかけとなるほどの最高なアイデアだが、SEOとしては、余り対策しようが無いと個人的に思う。

結論

クロールを対策するために「XML Sitemap」のプラグインが必要、インデックス対策のために「WebSub」のプラグインが必要、ということになる。

今回はざっくり解説（あと最新の知識かは深堀出来ていない）なので、是非Googleのサイトで詳しく見てみるといいだろう。

参考：
Google の検索エンジンの仕組み、検索結果と掲載順位について | Google 検索セントラル | ドキュメント | Google for Developers

Google 検索の基本事項（旧ウェブマスター向けガイドライン）| Google 検索セントラル | ドキュメント | Google for Developers

2024年5月
Mr.羊
#ワードプレス
 #初期セットアップ
 #備忘録