ブキチャレパワーが統計的に異常な増減をするとは
統計的に異常な増減をする
たとえば、ブキパワーが2600とか2700程度あると勝ってレートが+0.5、負けたらレートが-80みたいなことが普通に起きるんだよね 勝ち+0.5/負け-80の組合せを仮定すると期待増減ゼロに必要な勝率は99.4% はっきり言って正気の沙汰ではない 故に上位プレイヤーがそれなりの格下と当たるのはその時点で罰ゲームみたいなもんになってる
さらに、このような非対称はElo系の標準仮定では約900pt差でのみ整合するが、 ブキパワーは最上位が2700-2800程度で上位のインフレも小さいため、そのようなマッチングは現実的ではない ゆえに上位層ではK値の動的縮小や勝利側キャップ等により、レートが伸びにくくなるよう調整されていると推定される
これらの点を鑑みるとブキチャレはインフレ抑制や上限制御など運用上の都合が統計的妥当性に優先しており、 評価指標として破綻していると考えられる
武器チャレパワー27なんてその武器の全1レベルだろうし格下と当たって負けたらそれくらい引かれるのは全然正常だと思うよ フェスパワーと違って武器ごとにパワーが分かれてることで高いパワーで遊んでるプレイヤーがそもそも少ないはずだから同格同士のマッチングは組めないし27からレートを伸ばせないことは何も異常ではない あと統計の話を何もしてないのに統計的という言葉を軽々しく使うのはよくない
第2段落は非常に簡略化されているとはいえ、普通に統計の話(Elo型の確率モデルを前提にした統計的推論)をしているのですが…
また、ブキパワーがたとえ全1クラスでも数学的に勝ち+0.5/負け-80のような増減が発生するのは不健全である、という点も指摘しているのですが、 それを"格下と当たって負けたらそれくらい引かれるのは全然正常だと思う"の一言で済ますのは論理的とは言えません。そう思うなら数値的な妥当性を示してください。
また、"統計の話を何もしてないのに統計的という言葉を軽々しく使うのはよくない"とのことなので、もう少し統計的な話を踏み込んで行います。
前提として、標準的な確率的レーティングは、勝敗 S∈{0,1}・真の勝率 p・モデル予測 E を置き、更新則 Δ = K*(S−E) を使う。 モデルが校正されていれば E=p のとき期待更新 E[Δ|E=p]=0 となり、レート過程は偏りのない martingale. これに対して「勝ち+0.5/負け−80」は Δ = aS − b(1−S)(a=0.5, b=80)に等価で、E[Δ] = ap − b(1−p)。損益分岐の p_star = b/(a+b) = 80/80.5 ≈ 0.994 と極端に高く、4vs4の実戦では到達不能。 ゆえにモデルが正しくても過程は常に負のドリフト(supermartingale)となり、推定として不偏ではない(e.g. p=0.99 でも E[Δ]=0.495−0.8=−0.305)
さらに、勝ちの更新が極小で負けだけ大きい状態依存 K は、確率予測の誤差に比例して学習する Δ=K*(S−E) の「proper scoring」的性質を失わせ、E=p で期待更新が0にならない。これではたとえ校正してもバイアスが発生。 上位帯では E→1 の連戦で勝ってもほぼ動かず、Fisher情報が枯渇して強者同士の識別力が低下する。 一方で偶発的な1敗でのみレートが大きく落ちる非定常なデフレ過程に。 加えて、Eloのロジスティック解釈(レート差が log-odds に線形)も、勝敗で実効Kが異なることでスケール不変性が壊れる。
結論として、勝ち+0.5/負け−80のような非対称増減が常態化しているレーティングは、統計・数学の観点からはバイアスが強く、効率も低く、識別力も損なう設計。 健全性を確保するには、少なくとも Δ = K*(S−E) の対称更新を守り、Kは不確実性に応じて縮む(例: Glicko/TrueSkill系)一方で、E=p のとき常に E[Δ]=0 が成り立つように校正する必要がある。
ではなぜ以上のような問題が生じるのか? ブキチャレは多くのブキのレートを測る必要がある上、オマケ的な要素も強い。 そのため運営は収束を速めるべく大きめの学習率(実効K)を用い、同時に上位帯の数値インフレを抑える目的で状態依存かつ非対称の更新(勝ち側Kの強い縮小、負け側Kの拡大や上限キャップ)を入れていると考えられる。 統計的には「高速収束 vs 上方バイアス抑制」のトレードオフを狙った正則化だが、proper scoring的な自己一致性と期待値ゼロ性を損ね、上位域では負のドリフト(supermartingale)を生みやすい設計になる。
Eloは異なる能力のプレイヤー同士の勝敗の評価法なんだからぶつけること自体に問題はないのでは あとEloで動いてるだろうってのが-80–-70しかなくないか。なんか仮定を置いてそこから衝撃の事実を導くのあんまり上手い考えじゃない気がする
話を半分も理解できていないのですが、仮に自分のわパワーが27で、他の7人のパワーが17、全体の平均も17としたら、Elo型の確率モデルだといくつくらい変動するのが理想なのですか? あと今作のXマッチ以外の非固定レートは前作のXpと同じ仕組みだと思うのですが、前作のXpの時点で異常だったということですか?
>> 1333様
"Eloをぶつける"の意味するところがよくわからず申し訳ないのですが、 Eloやその系統のモデルを採用することの妥当性についての話だとすると、そこには何も問題は無いと思います。
また、"Eloと仮定して結論を出すのは弱い"というのはもっともな懸念です。 ですが、観測されたレート変動(+0.5/-80)から想定される損益分岐勝率が99.4%であるのはレーティングシステムに依らず真である事象です。 ゆえに、本質の欠陥(非対称更新により p*が非現実的に高く、期待値が負になる)はElo非依存で成立するものであり、実際に使われているシステムがEloであるか否かはあまり問題ではありません。 もっとも、多くの対人ゲームなどで使われるレート計算はEloやその派生形によるものであるため、本作がそれから大きく異なるものを使用する可能性は低いと思われます。
>> 1334様 Elo型の変動値に関しては その前提だとチームパワーの差が250なので、 これをElo的に勝率に換算するとE = 1 / (1 + 10^(−diff/400)) * 100 ≈ 80.83% これを基に算出すると、一般的に使われるK=32だと 勝ち +6.13、負け −25.87 というレート変動になります。 スプラ2のXパワーがこんな変動だった気がしますね。 ちなみに過去の統計からブキチャレはK=80ぐらいと予測すると、勝ち +15 負け-65 辺りになります
また、"今作のXマッチ以外の非固定レートは前作のXpと同じ仕組みだと思うのですが、前作のXpの時点で異常だったということですか?" という点についてですが、結論から申し上げますとブキチャレに関しては少し事情が異なるのではないかと考えています。
ブキチャレはベスト9という要素に関わる点からブキ9種の計測を行う前提であること、多くのブキを扱うことから各ブキで行う試合数が少ない前提でパワーが算出されていると思われます。 ゆえに、運営は収束を速めるべく大きめの学習率(実効K)を用い、同時に上位帯の数値インフレを抑えるため(Xパワーインフレの反省から?)に上位パワーのインフレ防止措置を実装しているというのが実情だと思われます。
要約すると大きい学習率(推測)とインフレ抑制のためのキャップを入れてる(推測)せいで上位勢の強さの識別をする能力が低いモデルになってるから評価指標として破綻しているという主張だと思うんだけど、それを「統計的に異常」とは言わないでしょ
そもそも(推測)が間違ってて計算式はフェスと同じだと思うけどな。
0.994が到達不能な水準だと言うのが自明の前提として論を進めてる点。故に「過程は常に負のドリフト……」以降の論理の全てが無意味。
おれは銀バッジ持ってるけど、それでも武器チャレパワーは22がやっと(武器練兼ねてるからそこまでやり込んでもいないけど)。それを考慮すると27は相当強くて、そもそもそこまでやり込んでるバンチャレガチ勢はほとんどいないだろうからフェスとは違って常に格下マッチングになって、27を維持するには勝率0.994が必要というだけの話でしょ。
>> 1344あなたの批判はとても筋が通っていると思います。 ただ、期待勝率がモデルの数式的に正しくとも実情とは合致していないことが結局不条理であると言う主張、 "統計的に異常"と私が表現した部分について解釈の違いがあること、 計算式がフェス等とは異なっていると考えられる点については補足させていただきます。
ブキチャレの場合、上位27帯がほぼ常に格下(22前後やそれ以下)とマッチするなら、モデル上の予測勝率Eがすでに0.99以上に張り付いている状況が「普通に」生じるわけで、 そのとき0.994が閾値というのは「実際に維持するための必要勝率」と読めます。 つまり「到達不能」というより「到達は極端に困難だが、極小人口の上位層なら事実上その水準を要求される」という表現が妥当でした。
もっとも、スプラトゥーンは編成事故や初動の事故、一人の戦犯の存在、その他諸々の要因でレート的にたとえば800程度格下でも勝率99%↑は事実上不可能であると解釈しているため、 その点でモデルの求める期待勝率が高すぎるという点については変わりません。
また、私が「統計的に異常」と表現したのは、proper scoring の要件(E=pのとき期待値0)を満たさない更新則という意味でした。 ただし現実には「Eが常に0.99以上になる狭い領域で動いているだけ」で、更新則そのものはフェスや他モードと同じ(対称なElo型)という可能性もあります。 そうであれば「式自体は健全、マッチング分布が原因でE≈1に偏るから実質的に負ドリフトが続く」という説明で済み、モデル自体が破綻しているわけではないのは確かです。 もっとも、レート計算以外の部分が破綻した結果、事実上レート計算も破綻している、という形になるだけではあります。
また、実際にパワー25↑あたりになると顕著なのですが、マッチングする相手がベストナインランキング上位のプレイヤーばかりになるんですよね。 ランキングとか配信だとかで見かける名前ばかりになるので敵でも味方でも至極恐縮なのですが、 その場合、相手が例えばパワー2500程度のブキを持っていることがイカリングで確認できます。 この状態で例えば勝率.994を要求される、すなわちチームのパワー差が900程度あるマッチングが"普通に"発生しているとは考えづらいのです。 というかそんなマッチングが平気で行われているのならマッチングの方がありえないほど狂っています。
その点でフェスなどと同様のGlicko的レーティングシステムあたりを採用していると想定すると、やはり変動値がインフレ抑制、及び下位層へのパワー分配のメカニズム無しでは説明のつかない値になっているのは間違いないと思っています。 数学的な話以外に、各ブキというレートを計算する対象が非常に多くなることから、フェスなどのレーティングシステムとは少し挙動が異なるモデルを採用することに高い合理性があることも根拠の一つです。
不適切なコンテンツとして通報するには以下の「送信」ボタンを押して下さい。 現在このグループでは通報を匿名で受け付けていません。 管理者グループにはあなたが誰であるかがわかります。
どのように不適切か説明したい場合、メッセージをご記入下さい。空白のままでも通報は送信されます。
通報履歴 で、あなたの通報と対応時のメッセージを確認できます。
たとえば、ブキパワーが2600とか2700程度あると勝ってレートが+0.5、負けたらレートが-80みたいなことが普通に起きるんだよね
勝ち+0.5/負け-80の組合せを仮定すると期待増減ゼロに必要な勝率は99.4% はっきり言って正気の沙汰ではない
故に上位プレイヤーがそれなりの格下と当たるのはその時点で罰ゲームみたいなもんになってる
さらに、このような非対称はElo系の標準仮定では約900pt差でのみ整合するが、
ブキパワーは最上位が2700-2800程度で上位のインフレも小さいため、そのようなマッチングは現実的ではない
ゆえに上位層ではK値の動的縮小や勝利側キャップ等により、レートが伸びにくくなるよう調整されていると推定される
これらの点を鑑みるとブキチャレはインフレ抑制や上限制御など運用上の都合が統計的妥当性に優先しており、
評価指標として破綻していると考えられる
武器チャレパワー27なんてその武器の全1レベルだろうし格下と当たって負けたらそれくらい引かれるのは全然正常だと思うよ
フェスパワーと違って武器ごとにパワーが分かれてることで高いパワーで遊んでるプレイヤーがそもそも少ないはずだから同格同士のマッチングは組めないし27からレートを伸ばせないことは何も異常ではない
あと統計の話を何もしてないのに統計的という言葉を軽々しく使うのはよくない
第2段落は非常に簡略化されているとはいえ、普通に統計の話(Elo型の確率モデルを前提にした統計的推論)をしているのですが…
また、ブキパワーがたとえ全1クラスでも数学的に勝ち+0.5/負け-80のような増減が発生するのは不健全である、という点も指摘しているのですが、
それを"格下と当たって負けたらそれくらい引かれるのは全然正常だと思う"の一言で済ますのは論理的とは言えません。そう思うなら数値的な妥当性を示してください。
また、"統計の話を何もしてないのに統計的という言葉を軽々しく使うのはよくない"とのことなので、もう少し統計的な話を踏み込んで行います。
前提として、標準的な確率的レーティングは、勝敗 S∈{0,1}・真の勝率 p・モデル予測 E を置き、更新則 Δ = K*(S−E) を使う。
モデルが校正されていれば E=p のとき期待更新 E[Δ|E=p]=0 となり、レート過程は偏りのない martingale.
これに対して「勝ち+0.5/負け−80」は Δ = aS − b(1−S)(a=0.5, b=80)に等価で、E[Δ] = ap − b(1−p)。損益分岐の p_star = b/(a+b) = 80/80.5 ≈ 0.994 と極端に高く、4vs4の実戦では到達不能。
ゆえにモデルが正しくても過程は常に負のドリフト(supermartingale)となり、推定として不偏ではない(e.g. p=0.99 でも E[Δ]=0.495−0.8=−0.305)
さらに、勝ちの更新が極小で負けだけ大きい状態依存 K は、確率予測の誤差に比例して学習する Δ=K*(S−E) の「proper scoring」的性質を失わせ、E=p で期待更新が0にならない。これではたとえ校正してもバイアスが発生。
上位帯では E→1 の連戦で勝ってもほぼ動かず、Fisher情報が枯渇して強者同士の識別力が低下する。
一方で偶発的な1敗でのみレートが大きく落ちる非定常なデフレ過程に。
加えて、Eloのロジスティック解釈(レート差が log-odds に線形)も、勝敗で実効Kが異なることでスケール不変性が壊れる。
結論として、勝ち+0.5/負け−80のような非対称増減が常態化しているレーティングは、統計・数学の観点からはバイアスが強く、効率も低く、識別力も損なう設計。
健全性を確保するには、少なくとも Δ = K*(S−E) の対称更新を守り、Kは不確実性に応じて縮む(例: Glicko/TrueSkill系)一方で、E=p のとき常に E[Δ]=0 が成り立つように校正する必要がある。
ではなぜ以上のような問題が生じるのか?
ブキチャレは多くのブキのレートを測る必要がある上、オマケ的な要素も強い。
そのため運営は収束を速めるべく大きめの学習率(実効K)を用い、同時に上位帯の数値インフレを抑える目的で状態依存かつ非対称の更新(勝ち側Kの強い縮小、負け側Kの拡大や上限キャップ)を入れていると考えられる。
統計的には「高速収束 vs 上方バイアス抑制」のトレードオフを狙った正則化だが、proper scoring的な自己一致性と期待値ゼロ性を損ね、上位域では負のドリフト(supermartingale)を生みやすい設計になる。
Eloは異なる能力のプレイヤー同士の勝敗の評価法なんだからぶつけること自体に問題はないのでは
あとEloで動いてるだろうってのが-80–-70しかなくないか。なんか仮定を置いてそこから衝撃の事実を導くのあんまり上手い考えじゃない気がする
話を半分も理解できていないのですが、仮に自分のわパワーが27で、他の7人のパワーが17、全体の平均も17としたら、Elo型の確率モデルだといくつくらい変動するのが理想なのですか?
あと今作のXマッチ以外の非固定レートは前作のXpと同じ仕組みだと思うのですが、前作のXpの時点で異常だったということですか?
>> 1333様
"Eloをぶつける"の意味するところがよくわからず申し訳ないのですが、
Eloやその系統のモデルを採用することの妥当性についての話だとすると、そこには何も問題は無いと思います。
また、"Eloと仮定して結論を出すのは弱い"というのはもっともな懸念です。
ですが、観測されたレート変動(+0.5/-80)から想定される損益分岐勝率が99.4%であるのはレーティングシステムに依らず真である事象です。
ゆえに、本質の欠陥(非対称更新により p*が非現実的に高く、期待値が負になる)はElo非依存で成立するものであり、実際に使われているシステムがEloであるか否かはあまり問題ではありません。
もっとも、多くの対人ゲームなどで使われるレート計算はEloやその派生形によるものであるため、本作がそれから大きく異なるものを使用する可能性は低いと思われます。
>> 1334様
Elo型の変動値に関しては
その前提だとチームパワーの差が250なので、
これをElo的に勝率に換算するとE = 1 / (1 + 10^(−diff/400)) * 100 ≈ 80.83%
これを基に算出すると、一般的に使われるK=32だと 勝ち +6.13、負け −25.87 というレート変動になります。
スプラ2のXパワーがこんな変動だった気がしますね。
ちなみに過去の統計からブキチャレはK=80ぐらいと予測すると、勝ち +15 負け-65 辺りになります
また、"今作のXマッチ以外の非固定レートは前作のXpと同じ仕組みだと思うのですが、前作のXpの時点で異常だったということですか?"
という点についてですが、結論から申し上げますとブキチャレに関しては少し事情が異なるのではないかと考えています。
ブキチャレはベスト9という要素に関わる点からブキ9種の計測を行う前提であること、多くのブキを扱うことから各ブキで行う試合数が少ない前提でパワーが算出されていると思われます。
ゆえに、運営は収束を速めるべく大きめの学習率(実効K)を用い、同時に上位帯の数値インフレを抑えるため(Xパワーインフレの反省から?)に上位パワーのインフレ防止措置を実装しているというのが実情だと思われます。
要約すると大きい学習率(推測)とインフレ抑制のためのキャップを入れてる(推測)せいで上位勢の強さの識別をする能力が低いモデルになってるから評価指標として破綻しているという主張だと思うんだけど、それを「統計的に異常」とは言わないでしょ
そもそも(推測)が間違ってて計算式はフェスと同じだと思うけどな。
0.994が到達不能な水準だと言うのが自明の前提として論を進めてる点。故に「過程は常に負のドリフト……」以降の論理の全てが無意味。
おれは銀バッジ持ってるけど、それでも武器チャレパワーは22がやっと(武器練兼ねてるからそこまでやり込んでもいないけど)。それを考慮すると27は相当強くて、そもそもそこまでやり込んでるバンチャレガチ勢はほとんどいないだろうからフェスとは違って常に格下マッチングになって、27を維持するには勝率0.994が必要というだけの話でしょ。
>> 1344あなたの批判はとても筋が通っていると思います。
ただ、期待勝率がモデルの数式的に正しくとも実情とは合致していないことが結局不条理であると言う主張、
"統計的に異常"と私が表現した部分について解釈の違いがあること、
計算式がフェス等とは異なっていると考えられる点については補足させていただきます。
ブキチャレの場合、上位27帯がほぼ常に格下(22前後やそれ以下)とマッチするなら、モデル上の予測勝率Eがすでに0.99以上に張り付いている状況が「普通に」生じるわけで、
そのとき0.994が閾値というのは「実際に維持するための必要勝率」と読めます。
つまり「到達不能」というより「到達は極端に困難だが、極小人口の上位層なら事実上その水準を要求される」という表現が妥当でした。
もっとも、スプラトゥーンは編成事故や初動の事故、一人の戦犯の存在、その他諸々の要因でレート的にたとえば800程度格下でも勝率99%↑は事実上不可能であると解釈しているため、
その点でモデルの求める期待勝率が高すぎるという点については変わりません。
また、私が「統計的に異常」と表現したのは、proper scoring の要件(E=pのとき期待値0)を満たさない更新則という意味でした。
ただし現実には「Eが常に0.99以上になる狭い領域で動いているだけ」で、更新則そのものはフェスや他モードと同じ(対称なElo型)という可能性もあります。
そうであれば「式自体は健全、マッチング分布が原因でE≈1に偏るから実質的に負ドリフトが続く」という説明で済み、モデル自体が破綻しているわけではないのは確かです。
もっとも、レート計算以外の部分が破綻した結果、事実上レート計算も破綻している、という形になるだけではあります。
また、実際にパワー25↑あたりになると顕著なのですが、マッチングする相手がベストナインランキング上位のプレイヤーばかりになるんですよね。
ランキングとか配信だとかで見かける名前ばかりになるので敵でも味方でも至極恐縮なのですが、
その場合、相手が例えばパワー2500程度のブキを持っていることがイカリングで確認できます。
この状態で例えば勝率.994を要求される、すなわちチームのパワー差が900程度あるマッチングが"普通に"発生しているとは考えづらいのです。
というかそんなマッチングが平気で行われているのならマッチングの方がありえないほど狂っています。
その点でフェスなどと同様のGlicko的レーティングシステムあたりを採用していると想定すると、やはり変動値がインフレ抑制、及び下位層へのパワー分配のメカニズム無しでは説明のつかない値になっているのは間違いないと思っています。
数学的な話以外に、各ブキというレートを計算する対象が非常に多くなることから、フェスなどのレーティングシステムとは少し挙動が異なるモデルを採用することに高い合理性があることも根拠の一つです。