サイト訪問者の皆様へ。お願いですから、サイト運営者の下記記事をお読みください。読んで下されば、「日本人の危機」であることが、明確です。


韓国人遺伝子の異常性へ


実際の順位決定に当たり、グーグルが考慮している諸要素を示す特許申請文書の解説です。グーグル創業者の当初構想は、大きく修正されました

要約(印象深かった点)

このページは、ランキングに関する特許申請文書 に基づき書きました

(備考)
グーグル順位に関する特許の米政府公式ページは、コチラですが、図が含まれていないため、グーグルの特許関連ページを使用しています。


本文が、あまりにもだらだらと長いので、印象的であった内容を要約しておきます。

なお、実際には検索ヒット数全てについてこのような多数の要素を勘案して、順位決定しているのではなく、上位800位程度までのみを対象としていると推定します。 検証例

①グーグルは、バックリンク数増減の時系列変化に着目している。明らかに無関係のウェブエージとのリンクの突然の増加は、スパム行為の指標である。

②ウェブページの更新頻度を順位決定要素とする。より頻繁に、より最近に、より広範囲に、ウェブページの内容が更新されれば、それを重視する。だたし、たとえ更新頻度が高かったとしても、その更新頻度が、固定的であれば、更新率が高まっているページのほうを高く評価する。

③以前の順位と関連付けて、現在の順位を決定する。順位の急上昇は、管理人がスパム行為を行っている兆候とみなす。

④異なる内容のアンカーテキストリンクを最重視する。

⑤グーグル検索によるアクセス時間をモニターする。順位決定に当たっては、グーグル検索によるウェブページへのアクセス数とアクセス時間を反映させる。

グーグルの順位決定に関する特許内容詳細

上記特許申請文書(ページランクとは、全く別の特許申請です。)の内容は、一言で言えば、ウェブサイトの経時変化に着目して、検索結果(順位)を決めるというものです。

その項目を列挙している箇所を引用します。①~⑫は、私が入れました。

the history data may include data relating to:
①document inception dates
②document content updates/changes
③query analysis
④link-based criteria
⑤anchor text (e. g., the text in which a hyperlink is embedded, typically underlined or otherwise highlighted in a document)
⑥traffic
⑦user behavior
⑧domain-related information
⑨ranking history
⑩user maintained/generated data (e. g. , bookmarks)
⑪ unique words, bigrams, and phrases in anchor text
⑫linkage of independent peers and/or document topics.

これらの概要を大雑把に紹介します。括弧書きは、意味が分かるように私が加えました。原文には、ありません。


①document inception dates

(基本的に、グーグルがウェブページ経時変化に着目して、順位決定する際の起点となる時点について、書いています。しかし、この箇所にページランクの経時変化に関する次の内容が含まれています。)

グーグルは、バックリンク数増減の時系列変化に着目し、下記の式を使っているようです。

H= L / log(F+2)

*Lは、ページランクの生の数値です。(3/10等々のツールバー表示数値ではありません)

*Fは、あるウェブサイトが、(グーグルに初めてキャッチされてからの)リンク数の増減記録(増減数又は増減比率)に基づき決定される数値です。(その決定方法の詳細は、述べていません.)

*Hは、L を F+2 の自然対数で割った数値

例えば、ある方が、ウェブサイトを開設し、SEOサイトにて

「ページランクは、重要です。ページランクが低ければ、ねらったキーワードでグーグルの検索結果の1ページ目に表示されることは、困難です。だから、バックリンクを増やして上位表示を目指しましょう 云々」

の内容を知り、懸命にバックリンクを増やす努力をした場合、ウェブサイト開設直後に、バックリンクが増え、その後は、増加数又は増加率が、(相当程度)低下した場合には、低く評価(=Fの数値を減らす)する旨が[0069]にあります。(英語原文では、may decrease としていますが、これは他の箇所でも全く同様です。)


②document content updates/changes

次式により、決定する。 U=f (UF,UA) (f は、関数のことです。要するに、UFとUAで決定するとの意味

UFは、(計算対象の一定期間における)ウェブページの更新頻度を示すスコア。(具体的には)更新の時間的間隔、及び(あるウェブサイト中の)更新されたウェブページ数

UAは、(あるウェブサイト中の)どれだけの比率のウェブページが、更新されたのかを示す比率。また、新しいページやユニークなページが加えられたのか、及びその新規ページの比率を含む。しかし、ジャバスクリプト、コメント、広告、navigational elements, date/time tag 等のような項目に関しては、(頻繁に更新されても)無視するか、ほどんど重視しない。反面、より頻繁に、より最近に、より広範囲に、ウェブページの内容が更新されれば、それを重視する。特に、タイトル、他ページへのアンカーテキストリンクの更新履歴を最重要視する。

以前の一定期間におけるページ更新比率と最近の一定期間のページ更新比率を比較する。たとえ、あるウェブサイト中の更新比率が高かったとしても、その更新比率が、固定的であれば、ウェブページ経時変化に着目し、更新率が高まっているページのほうを高く評価する。


query analysis

ウェブページの内容が、”陳腐ではない”ということを重視する。例えば、ウェブページへの(グーグル検索による)アクセス数、内容の更新(頻度)、アンカーテキストリンクの増加等々である。グーグルは、検索結果において、(高い順位ではあるが)内容の古いウェブページよりも、順位が低くとも、内容の新しいページの方を、グーグルユーザーがいかにしばしば好むのかを知っている。(要するに、そのようなウェブページの順位を上昇させるとの趣旨でしょう。)


link-based criteria

バックリンクの経時変化を監視し、順位の決定要素とする。(この部分は、いろいろ書いていますが、要するにバックリンクの増減及びその率、増加したバックリンク数と消えたバックリンク数の比率、新規バックリンクの増減傾向を全て考慮するということです。)


anchor text

アンカーテキストリンク先のウェブページの内容が、アンカーテキストリンクの表示内容と重大に異なれば、そのドメインは、以前の中身と重大に異なっている。これは、(半年、1年等々の)ドメインの有効期間が、終わり、異なる者によってそのドメインが購入された場合に生ずる。(ドメインが、売られた場合には、)アンカーテキストリンクによるバックリンクを無視するか、割り引いて評価する。

アンカーテキストリンクの”新鮮さ”は、順位決定のひとつの要素である。アンカーテキストによるバックリンクを有するウェブページの(ウェブ上への)出現日又は(内容)変更日は、ウェブページが更新された場合でも、良質なアンカーテキストリンクは、変更されないという考え方からすれば、アンカーテキストリンクの”新鮮さ”の指標である。(逆に言えば、相互リンク等による良質ではないアンカーテキストリンクは、ウェブページの微細な更新時に消える。)


traffic

(グーグルは、グーグル検索によるアクセスを当然把握しうるので)順位決定に当たっては、ウェブページへのアクセス数を反映させる。(具体的には)アクセス数の急減少は、(そのウェブページが)陳腐化したとみなす。また、(過去の)月間最大アクセス数と直近の例えば30日間のアクセス数を比較して(順位決定要素と)する。ただし、季節等のアクセス数の増減に影響のある要素を考慮する必要があるので、(過去の月間最大ではなく)過去1年の月間平均と比較する場合もある。また、広告によるアクセスについては、補正する。


user behavior

(グーグル検索によるアクセス後の)アクセス時間をモニターする。もし、グーグルで検索した結果、あるウェブページへアクセスし、そのアクセス時間が短かければ、そのウェブページの内容は陳腐であり、逆に長ければ、フレッシュであることを示す。例えば、reverview swimming schedule とユーザーが、グーグル検索入力し、その結果、reverview swimming schedule というタイトルを有するウェブページにアクセスし、30秒間見ていたのに、今は、ほんの数秒間のアクセス時間である場合には、そのウェブページは、陳腐化しているとみなし、(ランキングの)スコアを下げる


domain-related information

(自宅サーバーその他による)違法ドメインが1年以上使用されることは、稀であるのに対し、適法ドメインは、しばしば、数年分(費用が)前払いされる。従って、ドメインが、いつ有効期限をむかえるのかはが、適法ドメインであろうとの予測のための要素として、用いられる。

一定期間にわたって、正しいアドレス情報が存在するかどうか、ドメインのためのコンタクト情報が、しばしば変更されているかどうか、ホスティグ会社が、高い回数でサーバー名を変更していないかどうか、等々が違法ドメインを判定に関連付けられる。正当なサーバーは、異なる(ドメイン)登録者からの異なるドメインを含んでいるはずだ。一方、悪質なサーバーは、ポルノ用doorwayドメインである。


ranking history

(現在の検索順位ではなく)以前の順位と関連付けて、現在の順位をスコア(決定)する。

例えば、多数の(パターンの)検索結果において、急にそのランキング(順位)が、上昇した場合には、(管理人が)スパム(行為)を行っている兆候とみなす。このように、(過去の)ウェブページの順位変動は、そのウェブページに割り当てられるスコア(得点)に用いられる。(検索結果において)トップN個における位置(順位)がウェイト化される。(検索結果の)トップ30位以内にあれば、関数は、[((N+1)?SLOT)/N] 4 であり、1位は、スコア1で、トップN個に応じて、0に近づく。順位の急上昇は、リンクの売買・購入を行っているか、又は、(そのウェブページが)ホットトピックに関連しているのかの いずれかである。その両者を区別するために、(順位が突出的に上昇した)ウェブページが、ニュース記事や(ウェブ上の)デイスカッショングループで言及されているのかどうかを考慮する。スパムページは、言及されていないあろう。(ただし、)政府関連ウェブサイトやディレクトリー例えばヤフーは、固定的に高い順位となる。


user maintained/generated data 

(注)グーグルは、(グーグルでログイン後に)、検索ではなく、ユーザーが”お気に入り”で直接、ウェブサイトを訪問すれば、それを把握できるようです。

”お気に入り”や”ブックマーク”によるアクセスを重視する。また、ユーザーが”お気に入り”等に入れた数が増える傾向にあるウェブページは重要なページとみなす。もし、多くのユーザーが、ウェブページを”お気に入り”にいれ、そこからアクセスしているのであれば、その、ウェブページは、重要である。


unique words, bigrams, and phrases in anchor text

全く同じ内容の多数のアンカーテキストリンクやわざと(内容を変えた)異なるアンカーテキストリンクではなく、異なる内容のアンカーテキストリンクを重視する。(発リンク、バックリンクともに自然に増えた場合、それをグラフ化にすれば、カーブを描き、グラフには突出部がなく)アンカーテキストリンクは、ユニークな言葉やフレーズが含まれ、アンカーテキストリンクはそれぞれ、異なる内容であるはずだ。もし、リンクの増加グラフに突出部があれば、それは、多くの全く同じ内容のアンカーテキストリンクやわざと内容を(一部変え、)異なるアンカーテキストリンクの付加を意味する。これらの情報をスコア化する。

linkage of independent peers and/or document topics

明らかに無関係のウェブエージとのリンクの突然の増加は、スパム行為の指標である。


(①~⑪全てに関する御注意)


1.英語原文では、全てについて、search engine 125 may ~ としています。(search engine 125 とは、特許申請文書の図1に表示されているものですが、グーグルです。)

グーグルサイドからみれば、これらの経時変化に着目する順位決定は、いくらでも複雑・精密化できるでしょうが、検索後に、極めて短い時間で、検索結果を表示しなければならないため、このように、全て may ~=するかもしれない との表現を試用していると推察します。


2. 括弧書きは、意味が分かるように私が加えました。