WorldPressプラグイン-2'(補足:サイトマップ)|エジニアとしての備忘録#5
サイトマップの重要性を理解すると、何となくgoogleの検索の仕組みが見えてくる。また、Google Search Consoleの使い方の助けにもなる。
先に結論。(結論を念頭に入れて読むことをお勧めする)
・XML Sitemap:クロールに必要なプラグ
・WebSub:インデックスに必要なプラグ
サイトマップとは?
サイトマップとは、サイト内のページ構造をリスト形式のこと。
前回、サイトマップには「HTMLサイトマップ」と「XMLサイトマップ」の二つがあると書いた。
ここでは両者の違いを簡素的にさらっと説明する。
Googleに媚びるためのサイトマップ
まず、個人のWEBサイトのSEO対策で、主に必要となるのは「XMLサイトマップ」である。これを作成し、Google Consoleにサイトマップとして登録することで、Google検索エンジンの特徴であるクロール・インデックスを促せる。
はっきり言おう、2024年はSEO対策をGoogle特化で問題ない。
近年の検索サービスの動向として、Microsoftの「Bing」も人気が出ている。その理由はCopilotによるGPT-4の導入だと思うが、それでもシェア率は微々たるものだ。
以下のサイトは検索エンジンのシェア率の動向を示している。
Global search engine desktop market share 2024 | Statista
Googleのシェア率は以前ぶっちぎりなことが見て取れる。
Googleの創設者二人の画期的なアイデアは、検索エンジン界を圧巻した。是非読んでおくと学が深まるであろう。
※参考論文:The Anatomy of a Large-Scale Hypertextual Web Search Engine (research.google)
※セルゲイ・ブリンとラリー・ペイジの学生頃の論文
XMLサイトマップとHTMLサイトマップ
では、HTML側のサイトマップは何者であろうか?
両者の違いは開示する構造形式にある。要するに、目的とする対象が異なる
ということだ。
<対象>
HTMLサイトマップ:WEBサイトの訪問者(ユーザー)
XMLサイトマップ:検索クローラー
HTMLサイトマップ:
HTML形式ファイルを登録するので、コンテンツの位置などのユーザ目線の情報になる。HTMLの構造を見ればわかるとおり、特定目的のタグでサイトマップを開示することになる。
見た目重視型。
HTMLとは、WEBサイトなどを作成するうえでフロントエンドとして記述されるマークアップ言語のこと。
特定のヘッダ(h1/h2/~)やパラグラフ(p)などの各要素(エレメント)を、タグをとして定義する。
例えば、以下のイメージがHTMLの例だ。
(参照:https://www.w3schools.com/html/default.asp)
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>This is a Heading</h1>
<p>This is a paragraph.</p>
</body>
</html>
XMLサイトマップ:
HTML形式ファイルを登録し、WEBサイト内にあるURLや動画・画像ファイルの情報を開示する。個別目的に応じたタグを指定するので、検索エンジンに対してサイトの構造とページの更新情報を提供できる。
つまり、クローラーがURL(Link)を探しやすくなるということ。
中身重視型。
XMLとは、HTMLに似ているが目的が違う。
どちらも木構造であるため、形式や書き方はとても近い。
だが、HTMLはデータを表示することを目的するのに対して、XMLはデータを運ぶことを目的とする。これは一種のパラメータの定義であり、内部で使用することが前提だ。
例えば、以下のイメージがHTMLの例だ。
(参照:https://www.w3schools.com/xml/default.asp)
<?xml version="1.0" encoding="UTF-8"?>
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
</note>
XMLサイトマップの必要性
Googleの検索エンジンの仕組みは、ざっくりとこんな感じだ。
クロール(※ウェブページの発見)
インデックス(※ウェブページの認識・解析)
ページランク
ここからはざっくりと書く。
まず、主要な登場人物を覚えよう。
①クローラー ②インデクサ ③URLリゾルバ
フローとしてはこんな感じ。
クローラーがインターネットを徘徊して、ウェブページ探し出してくる。(クロール)
インデクサがクローラーの見つけたウェブページを解析する。(インデックス)
URLリゾルバがランキングを行いデータベースに登録する。(ページランク)
とにかく大事なのがクロールとインデックス。ページランクはGoogle創立のきっかけとなるほどの最高なアイデアだが、SEOとしては、余り対策しようが無いと個人的に思う。
結論
クロールを対策するために「XML Sitemap」のプラグインが必要、インデックス対策のために「WebSub」のプラグインが必要、ということになる。
今回はざっくり解説(あと最新の知識かは深堀出来ていない)なので、是非Googleのサイトで詳しく見てみるといいだろう。
参考:
Google の検索エンジンの仕組み、検索結果と掲載順位について | Google 検索セントラル | ドキュメント | Google for Developers
Google 検索の基本事項(旧ウェブマスター向けガイドライン)| Google 検索セントラル | ドキュメント | Google for Developers
2024年5月
Mr.羊
#ワードプレス
#初期セットアップ
#備忘録