物書き健児

物書きに大切なのは健康である。

【HTMLの覚書】検索ロボットと検索除けに関するざっくりまとめ

はじめに

※この記事はくるっぷに投稿したものを見やすくまとめたものです。

HTMLとか検索エンジンとか検索ロボットとか。これまで自分がモヤってたことを勉強してまとめてみた。ざっくり理解するための粗削り仕様。ポテチでも食べながらごらんください。

 

※個人的に勉強したもののアウトプット。正確な記述をこころがけていますが、かる~く読み流す感じでどぞー。

 

目立たないけど働いているHTML

 

SNSやミクシィ、小説投稿サイトを使っていると、強調したいところやリンクを貼るなどの動作は「ボタン一つポチ―」でできることも増えてきた。操作はお手軽になったが、その裏ではHTMLというネット上の共通言語が働いている。

 

HTMLとは、ハイパーテキストマークアップランゲージの事。 「webサイト上の文書を記述するためのマークアップ言語」と定義されている。((株)インプレス『いちばんやさしいWordpressの教本』)

 

★ハイパーは「超える」の意味。

ハイパーテキストとは「テキストをのせたページから別のテキストページ」をつなぐ「リンク」のこと。代表的なサイトはネット版のウィキペディア。

無限にリンク先をたどっていける、あれこそがハイパーテキストの良い例。(ハイパーだから、あるページから別のページへと越えていく、移動していく)

 

★マークアップのマークとは「タグ」のこと。

タグとは半角で表記された小なり記号と半角で表記された大なり記号で「囲まれたもの」を指す。タグはネット上での案内表示とか指示みたいに理解している。

ちゃんと書いてやらないと、後述する検索ロボットくんは働いてくれない。 なお、タグを記載してもこのページでは表示がされないので、タグを囲む記号については「小なり記号」「大なり記号」と記載する。

具体例

「太字にしなさい」→「小なり記号」b「大なり記号」

「大見出しだよ」→「小なり記号」h1「大なり記号」

「中見出しだよ」→「「小なり記号」h2「大なり記号」

「小見出しだよ」→「「小なり記号」h2「大なり記号」 など。

 

★ランゲージ。

ネット上の共通言語。ネット上の言語は共通のものでないとある地域でしか使えないとか使えるとかいう問題が出る。そうしたことを防ぐため、HTMLがさだめられた。

【タグの役目】

マークアップの役目は、①テキストやページ同士をつなぐことで移動できるようにすること(リンク)と、②Googleなどの検索エンジンにサイトの文章構造を正確につかんでもらうことだ。

検索エンジンは「ネット上で日々作成されるサイト、画像、ツイートなどあらゆる投稿」を拾って、検索者にピッタリの検索結果を提示する役目を持つ。 その中でもGoogleは検索エンジンの性能を高め、「片っ端から情報を拾い、最適な検索結果を返す」ことを重視した。

【タグ表示があれば仕事をする検索ロボット君】

情報は人力で拾いきれないので、検索ロボットというネット上の自動トラックドライバーみたいなもので集めていく。情報を拾ってもらい、ネット上に「これがあなたのツイートです、サイトです」と登録してもらうことを「インデックスされた」とかいう。

情報を集める時にサイトを訪問してくれる検索ロボット。彼らは「タグ」を見て初めて、訪れたサイトの情報を「ただの文字の羅列」ではなく、構造をもった一つのサイトなんだと理解する。

それはつまり、 「小なり記号」b「大なり記号」と書いておかなければ、「ここは太文字にする」というコマンドが伝わらない。 「小なり記号」h1「大なり記号」と書いておかなければ、「これは大見出し。このサイトで主張したい一番大事なタイトル」であると分かってもらえない。

検索ロボットには「言わなくても察してよ」が通じないのだ。いちいち「ここから大文字ですよ」とか「こっちとあっちはリンクでつないでね」と言ってやらないといけない。(;´Д`)メンドクサ

でも、正確に指示してやればちゃんと拾ってくれるし、ネットのどこからでも見えるようにしてくれるいい子。 サイトを使うだけの立場だと、「リンクもボタン一つでサクッと」とか、「強調したいとこも選んでポチっと」でサイト作成ができると思っているけど、実は裏ではめんどくさい作業がたくさんある。

 

検索ロボットに来てほしくない。むしろ拾うな、といいたいとき

反対に、検索ロボットに拾われたくない情報もある。別にこれは矛盾した話ではない。

企業によっては全員にオープンにしたくないサイトもあるし、個人で言うならば萌え語りとか推しへの叫びとかは検索結果一覧に出したくない。

これもタグで「ノー、インデックス!」とおまじないしておく、もしくはパスをかけて検索ロボットを追い返す方法がある。仕事熱心な検索ロボットも、鍵のかかったところには入っていけないのだ。

ただし、ノーインデックスのおまじないも万能ではないらしいので、そこだけご注意。(私はまだ実感してない)

 

【まとめ】

HTMLとはネットを使う上での共通言語。 特にマークアップ、という「タグ」をいちいち書かないと、リンクや画像・表などの表示がされない。サイトをつくっただけではネット上に「存在する」ことができないので、検索ロボットくんに拾ってもらい、どんな構造のサイトか教える必要アリアリ。

検索除け 世間に広く知られたらまずい情報、プレミアムな情報。もしくは個人のグヘヘな妄想など検索結果に出したらあかんものを人目につかないように隠そうと努力する事。

なにも対策しないと、仕事熱心な検索ロボット君が拾いに来たりする。なのでサイトの入口に「ノー!インデックス!」とタグ書いておまじないしたり、パスを付けて締め出しておくとよい。検索ロボットくんはすごすご帰っていくだろう。

 

関連記事はこちら

→ Twitter本社への問合せ方法のコツ - 物書き健児