ページランクと順位の相関係数は、0.75前後のかなり高い数値を示します。順位の半分以上は、ページランクが決定要素です
グーグルツールバーを使用した検証です
現在は、ページランクと順位の関係を検証することは、不可能ですが、過去において、グーグルは、11段階区分でページランクを公表していました。2013年まで、グーグルツールバーをインスツールすると、緑の横棒で各ウェブページのページランクが表示され、マウスオンで0~10までの数値が表示されていました。 ツールバー表示で公開されていたページランクの段階区分については、更新頻度やその正確性について問題がありましたが、 グーグル以外の部外者が、ウェブページのページランクの段階区分を知る唯一の方法でした。
2006年に実施した検証結果の要約
検証条件:日本語で海外旅行を含む4つのパターンで検索条件を指定し、1位~10位までは全て、11位以降は+10位毎にとびとびに調べた結果①20位以内に限定してみた場合、ページランクと順位には全く相関関係がない。
②逆に、141位までの広範囲の検索結果では、ツールバー表示の11段階区分(=ページランクの近似)と順位の相関係数は、0.549~0.807という高い数値を示す。
即ち、グーグルの順位決定要素中でページランクの占める比率は、約30%~60%である
③グーグルの2語検索でのみ、相関係数が他の検索パターンと比べて異常なまでに低い
④複雑な検索条件を指定した場合には、相関係数が低くなるかもしれないというう私の予想は完全にはずれた。
②逆に、141位までの広範囲の検索結果では、ツールバー表示の11段階区分(=ページランクの近似)と順位の相関係数は、0.549~0.807という高い数値を示す。
即ち、グーグルの順位決定要素中でページランクの占める比率は、約30%~60%である
③グーグルの2語検索でのみ、相関係数が他の検索パターンと比べて異常なまでに低い
④複雑な検索条件を指定した場合には、相関係数が低くなるかもしれないというう私の予想は完全にはずれた。
詳細は、注①をご覧ください。検索条件と相関係数のみ掲げておきます
①海外旅行の1語検索 : 0.807
②海外旅行+ハワイの2語検索 : 0.549
③海外旅行+ハワイ+格安の3語検索 : 0.658
④"海外旅行"+ハワイ+激安 OR 格安の複数語句及びor検索:0.78898
①海外旅行の1語検索 : 0.807
②海外旅行+ハワイの2語検索 : 0.549
③海外旅行+ハワイ+格安の3語検索 : 0.658
④"海外旅行"+ハワイ+激安 OR 格安の複数語句及びor検索:0.78898
2009年に実施した検証結果の要約
検証条件:英語で検索ヒット数が非常に少ない検索語句(5万ページ程度)~非常に大きい検索語句(約2億ページ)を25パターン指定し、1位からとびとびに+10位毎に又は+50位毎に調べた結果(注)この当時私は、日本の伝統工芸品の海外向け販売ウェブサイトを運営していたため英語検索の方が重要でした。検証例①に比べかなり時間をかけて調べました
①1位~151位までの相関係数は、0.775とい非常に高い数値
②1位~751位までの相関係数も0.762と同様に高い数値。即ち、グーグルの順位決定要素中でページランクの占める比率は、約57%にも及ぶ
③グーグルは、ページランクを検索ヒット数に応じたいわば「足切ライン」として、使用している可能性が高い。
②1位~751位までの相関係数も0.762と同様に高い数値。即ち、グーグルの順位決定要素中でページランクの占める比率は、約57%にも及ぶ
③グーグルは、ページランクを検索ヒット数に応じたいわば「足切ライン」として、使用している可能性が高い。
詳細は、注②をご覧ください。検索ヒット数と実際に見ることができる最低順位のみ掲げておきます
①検索ヒット数(カッコ内は、検索条件)
最小 52,600 (pagerank eigenvector)
最大 195,000,000(shopping sites)
②検索ヒット数に対する実際に見ることができる最低順位
最小 557位
最大 975位 (←ほぼ全て800位程度までしか表示されません)
①検索ヒット数(カッコ内は、検索条件)
最小 52,600 (pagerank eigenvector)
最大 195,000,000(shopping sites)
②検索ヒット数に対する実際に見ることができる最低順位
最小 557位
最大 975位 (←ほぼ全て800位程度までしか表示されません)
注①2006年に実施した検証結果
「"海外旅行"+ハワイ+激安 OR 格安」 と検索条件を指定した場合、つぎのようにページランクと順位には、約8割の相関関係が見られます。
なお、前記のような複雑な検索条件をあえて指定したのは、そのような複雑な検索条件の場合には、順位とページランクとの相関関係は、極めて希薄であろうとの予測を立てていたためですが、はずれました。
同様に、各検索例の相関係数を示します。
(ご注意)
以下の数値は、上の表をみれば分かるように、数字が高めにでてしまう手法で行いました。(1から10位又は20位までは全て、20位を超えれば、10×n)
②海外旅行の1語検索 : 0.807
③海外旅行+ハワイの2語検索 : 0.549。
(上記の引用文にてグーグル自身が、明言しているように、キーワードの近接度を最重要視するためでしょう。)
④海外旅行+ハワイ+格安の3語検索 : 0.658
この他に、抽出サンプル数を減らして、2・3例調べてみました。
推測にすぎませんが、両者の相関係数は、平均すれば、0.65~0.75前後であろうと考えます。(相関係数自体が、サンプルの取り方で大きく変わってきますので、単なる憶測にすぎません。1位から200位まで、10 例程度調べれば、はっきりするでしょうが、趣味で作成しているページなので、そこまでする時間的余裕がありません。なお、上記の簡単な検証は、平成18年4月に行い、検証時点では、ページランクは、更新途中であったことを申し添えておきます。)
以上より、相関係数を0.65~0.75と仮定すると経験則により、中程度の強めの相関関係があることになります。(実は、0.9を超えるような相関係数がでる場合は、むしろ異常であり、データ捏造の可能性が高いのです。)
「"海外旅行"+ハワイ+激安 OR 格安」 と検索条件を指定した場合、つぎのようにページランクと順位には、約8割の相関関係が見られます。
なお、前記のような複雑な検索条件をあえて指定したのは、そのような複雑な検索条件の場合には、順位とページランクとの相関関係は、極めて希薄であろうとの予測を立てていたためですが、はずれました。
URL |
順位 |
ページランク |
www.tellmeclub.com/ | 1 | 5 |
www.travel.co.jp/ | 2 | 5 |
www.his-j.com/ | 3 | 6 |
www.nta.co.jp/kaigai/bargain/ | 4 | 5 |
travel.rakuten.co.jp/kaigai/ | 5 | 6 |
travel.yahoo.co.jp/ | 6 | 7 |
good-deai.com/hawaii/ | 7 | 0 |
www.tour.ne.jp/disti/hawaii.htm | 8 | 4 |
www.tour.ne.jp/final/f_kaigai.asp | 9 | 5 |
www.ab-road.net/ - | 10 | 6 |
www.jtb.co.jp/kaigai/ | 21 | 6 |
www.skygate.co.jp/city/hnl.html | 31 | 4 |
www.flightshop.jp/ | 41 | 4 |
www.fun-space.jp | 51 | 3 |
www.tabitabilink.com/oyado/0bsc_01_kaigairyokou.htm | 61 | 3 |
www.wbf-kaigai.jp/osaka/ | 71 | 4 |
mokuteki.travel.jp/15/3/4/ | 81 | 3 |
www.the-sky.jp/air/economy_pc.html | 91 | 2 |
channel.goo.ne.jp/travel/ab/optional/index.html | 101 | 0 |
shop.orient-wave.com/?cid=18325 | 111 | 0 |
my.internetacademy.jp/~s1204332/kensaku/tabi/tour.htm | 121 | 2 |
yellow.kakiko.com/ksmworld/worldtrip.html | 131 | 0 |
ad1.yomiuri.co.jp/cgi_bin/ads/count/count.cgi?28b58e | 141 | 0 |
相関係数 | -0.78898 |
同様に、各検索例の相関係数を示します。
(ご注意)
以下の数値は、上の表をみれば分かるように、数字が高めにでてしまう手法で行いました。(1から10位又は20位までは全て、20位を超えれば、10×n)
②海外旅行の1語検索 : 0.807
③海外旅行+ハワイの2語検索 : 0.549。
(上記の引用文にてグーグル自身が、明言しているように、キーワードの近接度を最重要視するためでしょう。)
④海外旅行+ハワイ+格安の3語検索 : 0.658
この他に、抽出サンプル数を減らして、2・3例調べてみました。
推測にすぎませんが、両者の相関係数は、平均すれば、0.65~0.75前後であろうと考えます。(相関係数自体が、サンプルの取り方で大きく変わってきますので、単なる憶測にすぎません。1位から200位まで、10 例程度調べれば、はっきりするでしょうが、趣味で作成しているページなので、そこまでする時間的余裕がありません。なお、上記の簡単な検証は、平成18年4月に行い、検証時点では、ページランクは、更新途中であったことを申し添えておきます。)
以上より、相関係数を0.65~0.75と仮定すると経験則により、中程度の強めの相関関係があることになります。(実は、0.9を超えるような相関係数がでる場合は、むしろ異常であり、データ捏造の可能性が高いのです。)
注②2009年に実施した検証結果
英文検索の場合について、25例ほど両者の関係を調べてみました。サンプルとして、調べたのは、言語の特性から、ほぼ全て日本語流に言えば2-3語検索です。(例えば、地球温暖化は、日本では一語ですが、英語では、global warming等)。
データの取り方は、次のような手法です。
①n=10とし、1位から1+10×nの順位のウェブページの11段階区分のページランクを151位まで
②n=50とし、1位から1+50×nの順位のウェブページの11段階区分のページランクを751位まで
結果、相関係数は、n=10で0.775、n=50で0.762と かなり高い数値が出ています。易しく言えば、検索ヒット数にもよりますが、低いページランクでは、10位以内に入れる可能性(確率)が、 かなり低いことを意味します。なお、1位~20位程度までであれば、ページランクと検索順位は、ほぼ無関係ですので、勘違いされないようにご注意ください。 (本文参照) 例えば、ターゲットキーワードでの順位が、18位の場合、ページランクを上げて、10位以内に入ろうとしても、他の要因の方が、はるかに大きいはずです。
相関係数の2乗の値を決定係数と呼びます。平たく言えば、グーグルの順位決定に占めるページランクの役割は、約6割であり、残り4割は、他の多数の要因によって決定されているということ になります。私の検証方法が正しければ、これで、ほぼ間違いありません
なお、検索画面を英文のグーグルに設定している場合、例えば、global warmingの検索で、約3千5百万ページが、検索結果として、ヒットしますが実際に見ることができるのは、 表示順位で、750位程度までです。(他例でも800位を超えれば、実際には見れません。)このため、調べたのは、最大975位までですが、データの対象としたのは、800位までです。
以下にデータを掲げます。
①検索ヒット数(カッコ内は、検索条件)
最小 52,600 (pagerank eigenvector)
最大 195,000,000(shopping sites)
②検索ヒット数に対する実際に見ることができる最低順位
最小 557位
最大 975位 (←ほぼ全て800位程度まで)
③ツールバー表示11段階区分のページランクの平均値
*n=10 (この検索の場合、検索ヒット数を10万台~1億超まで意図的に分散させています。)
*n=50 (この検索の場合、平均的な検索を想定。検索ヒット数を分散させていません。)
検証した私の実感は、次の3点です。
①グーグルは、キャッチ後に一定期間が経過したウェブページについては、ページタイトルに検索対象語句を含まなければ、ページランクを検索ヒット数に応じた、いわば「足切ライン」として、使用しているのではないか?(これは、ウェブページ数が圧倒的に多く、ページランクに狂奔しているケースが多い英語サイトの場合のみでしょう。)
(根拠)
上記の表が、検索ヒット数の最後まで作成できれば、ページランクの平均値は、ゼロに近づくはず。n=50について、回帰直線の係数から切片を算出すると、計算上は、
907位以下は、ページランクの平均値は、ゼロのはずです。グーグルが、検索ヒット数が、いかに多くとも、実際に見れるウェブページを概ね800位~850位程度までとしているのと、驚くほどよく一致します。
②次に、「足切ライン」内のウェブページについてのみ、ページランクに加え、他の多数の要素を加味して、その検索順位を決定しているのではなかろうか?
(理由)
グーグルは、コンマ数秒で、検索結果を返さなければならず、ヒットした全てのウェブページについて、多数の要素を加味して、その検索順位を決定することは、検索エンジンとしてあまりにも過大な負担であり、かつ、ページランクを根幹とするウェブページ評価手法を採用している以上無駄であるからです。
英文検索の場合について、25例ほど両者の関係を調べてみました。サンプルとして、調べたのは、言語の特性から、ほぼ全て日本語流に言えば2-3語検索です。(例えば、地球温暖化は、日本では一語ですが、英語では、global warming等)。
データの取り方は、次のような手法です。
①n=10とし、1位から1+10×nの順位のウェブページの11段階区分のページランクを151位まで
②n=50とし、1位から1+50×nの順位のウェブページの11段階区分のページランクを751位まで
結果、相関係数は、n=10で0.775、n=50で0.762と かなり高い数値が出ています。易しく言えば、検索ヒット数にもよりますが、低いページランクでは、10位以内に入れる可能性(確率)が、 かなり低いことを意味します。なお、1位~20位程度までであれば、ページランクと検索順位は、ほぼ無関係ですので、勘違いされないようにご注意ください。 (本文参照) 例えば、ターゲットキーワードでの順位が、18位の場合、ページランクを上げて、10位以内に入ろうとしても、他の要因の方が、はるかに大きいはずです。
相関係数の2乗の値を決定係数と呼びます。平たく言えば、グーグルの順位決定に占めるページランクの役割は、約6割であり、残り4割は、他の多数の要因によって決定されているということ になります。私の検証方法が正しければ、これで、ほぼ間違いありません
なお、検索画面を英文のグーグルに設定している場合、例えば、global warmingの検索で、約3千5百万ページが、検索結果として、ヒットしますが実際に見ることができるのは、 表示順位で、750位程度までです。(他例でも800位を超えれば、実際には見れません。)このため、調べたのは、最大975位までですが、データの対象としたのは、800位までです。
以下にデータを掲げます。
①検索ヒット数(カッコ内は、検索条件)
最小 52,600 (pagerank eigenvector)
最大 195,000,000(shopping sites)
②検索ヒット数に対する実際に見ることができる最低順位
最小 557位
最大 975位 (←ほぼ全て800位程度まで)
③ツールバー表示11段階区分のページランクの平均値
*n=10 (この検索の場合、検索ヒット数を10万台~1億超まで意図的に分散させています。)
1位 | 11 | 21 | 31 | 41 | 51 | 61 | 71 | 81 | 91 | 101 | 111 | 121 | 131 | 141 | 151位 |
4.8 | 3.7 | 3.0 | 3.2 | 3.1 | 2.9 | 2.2 | 2.6 | 1.8 | 3.0 | 2.5 | 2.2 | 1.2 | 2.4 | 2.0 | 2.2 |
*n=50 (この検索の場合、平均的な検索を想定。検索ヒット数を分散させていません。)
1位 | 51 | 101 | 151 | 201 | 251 | 301 | 351 | 401 | 451 | 501 | 551 | 601 | 651 | 701 | 751位 |
6.2 | 4.4 | 4.0 | 3.3 | 3.7 | 4.3 | 4.2 | 3.3 | 2.4 | 4.1 | 2.8 | 1.3 | 3.2 | 2.2 | 3.1 | 1.8 |
検証した私の実感は、次の3点です。
①グーグルは、キャッチ後に一定期間が経過したウェブページについては、ページタイトルに検索対象語句を含まなければ、ページランクを検索ヒット数に応じた、いわば「足切ライン」として、使用しているのではないか?(これは、ウェブページ数が圧倒的に多く、ページランクに狂奔しているケースが多い英語サイトの場合のみでしょう。)
(根拠)
上記の表が、検索ヒット数の最後まで作成できれば、ページランクの平均値は、ゼロに近づくはず。n=50について、回帰直線の係数から切片を算出すると、計算上は、
907位以下は、ページランクの平均値は、ゼロのはずです。グーグルが、検索ヒット数が、いかに多くとも、実際に見れるウェブページを概ね800位~850位程度までとしているのと、驚くほどよく一致します。
②次に、「足切ライン」内のウェブページについてのみ、ページランクに加え、他の多数の要素を加味して、その検索順位を決定しているのではなかろうか?
(理由)
グーグルは、コンマ数秒で、検索結果を返さなければならず、ヒットした全てのウェブページについて、多数の要素を加味して、その検索順位を決定することは、検索エンジンとしてあまりにも過大な負担であり、かつ、ページランクを根幹とするウェブページ評価手法を採用している以上無駄であるからです。