サイト訪問者の皆様へ。お願いですから、サイト運営者の下記記事をお読みください。読んで下されば、「日本人の危機」であることが、明確です。


韓国人遺伝子の異常性へ


グーグル創業者の当初の基本構想は、「ウェブページの属性としてのページランクとアンカーテキストリンクをもって順位決定要素とする」です

グーグルの検索順位は、現在、、カスタマイズ化されており、万人に共通な順位そのものが存在しません。


グーグルの検索技術は、日々進化しており、現時点でパソコン・モバイル端末を問わず、グーグルの順位は、過去に検索して選択表示したウェブページについて、順位が上に来るように設定されています。

この意味において、全ての人に完全に共通な「グーグルの順位」そのものが、事実上存在しません。 何よりもますこの点に強く留意してください。


このページの内容は、全てグーグル創設者であるSergey Brin and Lawrence Pageの共同論文によります。グーグル創設当初は、概ねこの論文どおりに順位を決定していたでしょうが、現在では、下記の 特許が示すように他の多数の要素が加味されています

グーグル創設者の論文① →


実際の順位決定に当たり、グーグルが考慮している諸要素を示す特許(Information Retrieval Based on Historical Dataについては、別ページとしています

米国政府公式ページ(読みにくい)→


特許申請内容(グーグル特許検索から)→

以下の内容は、日本語としては、読みにくいでしょうが、グーグル創設者の論文該当箇所の翻訳プラス内容の解説です。



ページランクとアンカーテキストリンクを最重要視(論文)


1.グーグルの順位決定における基本的前提条件

 

前記論文の該当箇所にて、執筆者(グーグル創始者)は、グーグルは、そのキャッチしているウェブサイトの範囲が他のサーチエンジンよりはるかに広範であることを、明記したうえで、

グーグルが、キャッチしている全てのウェブページは、グーグルが、順位を決定する場合に必要とする検索キーワードのウェブページのおける位置(記載場所)、そのフォントサイズ、大文字の使用の有無などのグーグルが順位決定する場合における有益な情報をウェブページ自身が含んでいることを、はじめに指摘しています。

 

加えて、順位決定に際しては、ウェブページのページランクとアンカーテキストリンクを最重要視(=その決定要素)とするしなければ、ならないことを示しています。また、これらの全ての情報を順位に結実させることが困難であることを指摘しています。

このため、グーグルは、その順位決定に際しては、あるひとつの固有の要素が(例えば、強調タグ使用の有無)順位決定に大きい影響を及ぼさないように設計した旨を明記しています。(ここまでは、ほぼ翻訳です。)

 

2.グーグル一語検索の場合における順位決定の概要

 

2-1.グーグル一語検索の場合

グーグルがキャッチしているウェブページ(hitlist)について、一語検索がされた場合、まず、そのヒットリストが作成されますが、それをどのようにして順位を決定するのかについて、

まず、最初に

その検索ワードを含むウェブページの全てについて、その検索対象の一語をタイトルタグに含むか、アンカーテキストリンクの有無、URL・ドメイン名に含むか、大きいフォントを使っているか、 小さいフォントを使っているか 等々のいくつかの異なる類型毎に分類し、その数をカウントします。

そして、順位決定に際しては、それぞれの類型は、同じウェイトではなく、異なったウェイトを有しています

具体的には、原文で言うところのType weightとは、あるウェブページにて、タイトルタグにキーワードを含むことを 1 とすれば、大きいフォントにて同じキーワードが5回使われていても、 5×0.1=0.5と、差をつけることを意味します。


次に、そのカウントされた数自身についても変換がされます。これを、論文執筆者は、Count-weightと呼んでいます。具体的には、 前例のフォントタグ(見出しタグ又は個別サイズ指定タグ)が、同じウェブページ中で、同じキーワードにて、5回使用されていれば、5×0.(=Type weight)×5<=2.5 とするのではなく、 その頻出度合に応じて、逓減的に計算され、かつ、そのCount-weight逓減比率が、それぞれの Type weighに応じて、異なることを意味します。
なお、その逓減比については、全く言及していません。(下記原文参照)


例えば、下記のとおりです。

キーワードを300字中、大きいフォントサイズ(強調用のBタグも含むと解します。)の言葉が、

Aページ  同タグ:3使用 × 0.1Type weight) × 0.1 (同タグの3回使用に応じたCount-weight)=0.03

Bページ  同タグ:6使用 × 0.1Type weight) × 0.05(同タグの6回使用に応じたCount-weight)=0.03Count-weight逓減率、10分の1

同じ、キーワードを300字中、通常フォントにて、(つまり、キーワード密度)

通常フォント: 5使用 × 0.05Type weight) ×0.6(通常フォントの10回数に応じたCount-weight)=0.15

通常フォント: 10回使用 × 0.05Type weight) ×0.3(通常フォントの30回数に応じたCount-weight)=0.15(同逓減率、4分の1

 

この2段階を総合した結果、Googleは、順位決定のための IR score (Information Retrievalの略=情報検索スコア)を算出します。そして、 最終的に、IR score とページランクが結合され、アンカーテキストリンク、ページタイトル等の他要因が加味され、順位が決定されます。 (論文執筆者は、その結合をどのように行うのかについては、全く言及していません。また、Count-weightについて、頻出度合に応じる計算方法についても、言及していません。)

 

2.グーグル複数語検索の場合

当たり前ですが、より複雑です。Googleは、複合語検索の場合、グーグル自身が明言しているように、その複合キーワードの近接度を重要視します。
それ以外は、基本的には、1語検索と同様のようです。(単純なtype weight ではなく、type-prox-weight という近接度を加味したtype weightが使用されます。一番知りたいところなのですが、原文でも、詳しくは、触れていません。)

 

2-3. 該当箇所の英語原文(下線部は、私が入れました。)

 

Cited from [The Anatomy of a Large-Scale Hypertextual Web Search Engine]

4.5.1 The Ranking System

Google maintains much more information about web documents than typical search engines. Every hitlist includes position, font, and capitalization information. Additionally, we factor in hits from anchor text and the PageRank of the document. Combining all of this information into a rank is difficult. We designed our ranking function so that no particular factor can have too much influence. First, consider the simplest case -- a single word query. In order to rank a document with a single word query, Google looks at that document's hit list for that word. Google considers each hit to be one of several different types (title, anchor, URL, plain text large font, plain text small font, ...), each of which has its own type-weight. The type-weights make up a vector indexed by type. Google counts the number of hits of each type in the hit list. Then every count is converted into a count-weight.Count-weights increase linearly with counts at first but quickly taper off so that more than a certain count will not help. We take the dot product of the vector of count-weights with the vector of type-weights to compute an IR score for the document. Finally, the IR score is combined with PageRank to give a final rank to the document.

For a multi-word search, the situation is more complicated. Now multiple hit lists must be scanned through at once so that hits occurring close together in a document are weighted higher than hits occurring far apart. The hits from the multiple hit lists are matched up so that nearby hits are matched together. For every matched set of hits, a proximity is computed. The proximity is based on how far apart the hits are in the document (or anchor) but is classified into 10 different value "bins" ranging from a phrase match to "not even close". Counts are computed not only for every type of hit but for every type and proximity. Every type and proximity pair has a type-prox-weight. The counts are converted into count-weights and we take the dot product of the count-weights and the type-prox-weights to compute an IR score. All of these numbers and matrices can all be displayed with the search results using a special debug mode. These displays have been very helpful in developing the ranking system.