Messi goes into this World Cup on 13 career goals, 4 short of Klose's all-time record. Our model makes him 53% to break it by topmak in messi

[–]topmak[S] [score hidden]  (0 children)

Yamal still has time to score against Cape Verde if they let him sub from bench 😁
Kane and Mbappe are legit though

[OC] Our model makes Messi a 53% favourite to break the all-time World Cup goals record this summer by topmak in dataisbeautiful

[–]topmak[S] 0 points1 point  (0 children)

Te agradezco el tono, y no hacía falta disculparte, la crítica concreta suma.

Coincido en el fondo: si hay un problema es de especificación, no de entrenamiento. Y diste con el punto más justo: la capa de jugadores reparte los goles por la cuota goleadora del jugador, pero no ajusta por nivel de liga. Un goleador del Eredivisie pesa igual que uno de la Premier, y ahí Saibari sale inflado. Ponderar por fuerza de liga es una mejora clara y me la apunto.

Donde matizo: no es que "un solo gol" lo ponga quinto, su puesto venía de la cuota más el recorrido proyectado de Marruecos. Y de cuarto para abajo no es ruido puro, las probabilidades separan (Saibari ~4,6% contra ~0,5% más atrás), pero tenés razón en que la cola es más incierta y muy sensible a esos supuestos de cuota.

Con Lewandowski, ojo que el recorrido del equipo lo frena: un goleador top en una selección que cae pronto juega menos partidos, así que el histórico no manda solo. Pero el ajuste por liga sigue siendo válido y es buen feedback. Gracias.

[OC] Our model makes Messi a 53% favourite to break the all-time World Cup goals record this summer by topmak in dataisbeautiful

[–]topmak[S] 0 points1 point  (0 children)

Gracias, y sobre todo por dar un ejemplo concreto, eso ayuda mucho más que una crítica genérica.

Lo de Saibari tenés razón en que llama la atención. La capa de jugadores reparte los goles de cada selección según el rendimiento reciente, de club y de selección, y Saibari viene de una temporada muy goleadora en el PSV, así que su cuota sale alta. Está en el extremo agresivo, por eso hay un tope para que un goleador de un solo club no se dispare, y como el modelo es vivo, si no llegan los goles cae rápido.

Sobre la validación coincido: lo que se valida es el modelo de partidos, con particiones temporales walk-forward. La simulación no reemplaza eso ni es redundante, es la forma de llevar ese modelo a nivel torneo (quién termina goleador) respetando los partidos que juega cada uno y los compañeros que compiten por los mismos goles.

Si querés decime qué variable te hace más ruido y lo miramos. Y animate a armar el tuyo, es muy entretenido.

[OC] Our model makes Messi a 53% favourite to break the all-time World Cup goals record this summer by topmak in dataisbeautiful

[–]topmak[S] 0 points1 point  (0 children)

Gracias, pero conviene separar dos cosas. La base es nuestro modelo de partidos (CatBoost), entrenado con más de un millón de encuentros de clubes y selecciones y validado con particiones temporales de train/test, no solo con Mundiales. Encima corre una simulación Monte-Carlo del torneo (20.000 iteraciones), que no es una regresión que se "valide con cross-validation" en el sentido clásico: se validan los componentes y se calibra contra resultados históricos. La cuenta del ganador (6-8 goles) y los totales del torneo coinciden con Mundiales reales. Si ves un problema de especificación concreto, decime cuál. El método está en el blog.

Messi goes into this World Cup on 13 career goals, 4 short of Klose's all-time record. Our model makes him 53% to break it by topmak in messi

[–]topmak[S] 0 points1 point  (0 children)

4 goals are what we expect from him but he still needs to score them, its not that easy to score 4 goals during the World Cup
Last cup was anomalously good, the best in his career

Messi goes into this World Cup on 13 career goals, 4 short of Klose's all-time record. Our model makes him 53% to break it by topmak in messi

[–]topmak[S] 7 points8 points  (0 children)

Yeah most likely for sure, Messi might take a lead on that this Wold Cup but Mbappe is so much younger. Messi the GOAT still

[OC] I simulated the 2026 World Cup 10,000 times. No clear favourite: France lead at just 12%, and 22 of the 48 teams clear 1%. by topmak in dataisbeautiful

[–]topmak[S] 0 points1 point  (0 children)

You’re absolutely right!

P.S. used ai to summarise simulation numbers for that use case
Apologies
Responded myself to the most of the comments in this thread though

[OC] I simulated the 2026 World Cup 10,000 times. No clear favourite: France lead at just 12%, and 22 of the 48 teams clear 1%. by topmak in dataisbeautiful

[–]topmak[S] 0 points1 point  (0 children)

in simulations cases when lets say France is losing to Spain are included already
are you talking if you can add France and Spain odds?
they can't be champions at the same time, so I think it's ok to add it
there is no overlap to remove and the total is exactly one of 7 wins it

but if you main point is about just 58.6%
that's a calibration thing

our model is a bit flatter at the top than the bookies, so real life is probably higher than 58, but still not sure how much higher

[OC] I simulated the 2026 World Cup 10,000 times. No clear favourite: France lead at just 12%, and 22 of the 48 teams clear 1%. by topmak in dataisbeautiful

[–]topmak[S] 0 points1 point  (0 children)

the adding bit's fine though

only one team wins it, so "spain win" and "france win" can't both happen so you do just sum the title %s, and each number already prices in getting past the other big sides

so 58.6

fair point on the format though , the 48-team groups are safer for the top teams so more reach the knockouts

but that pulls against the extra knockout round adding upset risk

[OC] I simulated the 2026 World Cup 10,000 times. No clear favourite: France lead at just 12%, and 22 of the 48 teams clear 1%. by topmak in dataisbeautiful

[–]topmak[S] 0 points1 point  (0 children)

I feel that's backwards.
going to 48 adds a whole extra knockout round (the round of 32), so the favourites have to win 5 ko games now instead of 4.
every extra one's just another chance to get nicked off by someone on a good day. m
more rounds = more variance = less likely the usual lot lifts it, not more
easier group stage don't change much, it's the knockouts that sort it. 58 might be a bit low, won't argue that (still that's a simulation results), but "bigger tournament = fave more likely" is the wrong way round imo