Causal Clutch Value

El problema

Hay algo que todos vemos en el fútbol y que ningún ranking público captura: qué pasa con un jugador cuando realmente importa.

No es mérito colectivo. No es táctica. No es suerte. Es algo más primitivo y más ignorado: la capacidad de responder cuando la presión psicológica es máxima.

El gol acaba de marcar tu equipo. Estamos en el filo. Noventa minutos de semifinales. Cien mil personas gritando. Y en ese momento—en esos ±10 minutos donde la emoción desboca los procesos racionales—hay jugadores que se crecen y otros que se encogen. Su decisión en ese instante no es comparable a la misma decisión en el minuto 10 de un 3-0.

Pero la literatura sobre "clutch performance" en fútbol es un páramo. Los pocos intentos públicos se reducen a eventos aislados—rankings que aparecen cuando "importa"—sin tracking sincronizado, sin separar la respuesta individual del patrón colectivo del equipo, sin rigor causal.

Es como medir la calidad de un pase solo mirando si llegó al compañero, ignorando si ese compañero estaba marcado por uno o dos defensas. El contexto es todo.

La proposición: un framework en seis requisitos simultáneos

Durante mi máster en Sport Data, dediqué los últimos meses a construir algo que no existe en la literatura aplicada: un framework causal que mida el efecto individual del shock emocional del gol sobre el desempeño del jugador, residualizado contra el bloque colectivo del equipo, cuantificado en cuatro canales de performance, validado mediante quasi-experimento, y reportado con incertidumbre bayesiana.

Lo llamé Causal Clutch Value (CCV).

El CCV ocupa un espacio metodológico muy específico: requiere seis ingredientes simultáneos que la literatura aplicada había desarrollado por separado:

Definición de shocks emocionales sobre una espina dorsal temporal de Win Probability bayesiana calibrada
Cuantificación de la respuesta del jugador en cuatro canales (ofensivo, defensivo, off-ball, físico) con estimadores de referencia pre-calibrados
Residualización contra el patrón colectivo mediante leave-one-out a nivel de frame
Triangulación causal con DiD within-player + quasi-experimento near-miss sobre disparos
Efecto heterogéneo por jugador con CATE bayesiano jerárquico multivariate
Salida scout-facing con rankings, incertidumbre individual, y métricas por contexto

Omitir cualquiera de estos seis introduce un confusor estructural distinto. Son necesarios todos juntos.

La arquitectura: cinco capas de identificación causal

Antes de los números, la lógica:

Capa 1: Identificación del shock Cada gol en el torneo es un shock emocional. Para cada gol, calculo el xG pre-disparo. Eso me da "magnitud de sorpresa"—un gol a 0.05 xG es más sorpresivo que uno a 0.78 xG. La literatura econométrica contemporánea (Sun & Abraham 2021, Borusyak et al. 2024) ha mostrado que el contraste de eventos pulsados con efecto aleatorizado condicional a pre-características es identificador bajo paralelas.

Capa 2: Ventana temporal de análisis ±10 minutos alrededor de cada gol. Es el horizonte donde la psicología del deporte documenta que la emoción contamina el procesamiento racional sin todavía reconfigurar la táctica consciente. Post 10 minutos, vuelve la racionalidad estratégica.

Capa 3: Bloque colectivo como control Aquí está la boca de la cantera. Otros trabajos miden solo el jugador—ej. Konefal et al. (2024) cuantifican cambios en física post-gol a nivel equipo, pero no separan individuo. Yo construyo, para cada par (jugador, shock), un indicador del patrón del equipo excluyendo a ese jugador. Técnica: leave-one-out regression sobre el vector de acciones de los 21 compañeros. Ese es el "team block". Luego el delta relativo = delta individual - delta team. Ahí está la firma del jugador, descontaminado de lo colectivo.

Capa 4: Cuatro canales de medición

Ofensiva (atomic-VAEP + un-xPass): Progresión e intensidad con balón. Varía por posición.
Defensa (VDEP estricto + exPress + atribución frame-level): Recuperación, presión, cobertura. Métrica de probabilidad de recuperación en 5 segundos post-presión.
Off-ball (OBSO + C-OBSO): Control del espacio sin balón. Potencial Pitch Control Field vectorizado + contraste con contrafáctico si el jugador hubiera estado quieto en su posición previa.
Física (Bradley + residual bayesiano): Velocidad, sprints, distancia en alta intensidad. Residualizado contra línea base personal modulada por curva temporal del minuto.

Cada canal produce dos agregaciones: por-jugador-minuto (para DiD within-player) y por-jugador-shock-ventana con delta colectivo leave-one-out (para AIPW y CATE).

Capa 5: Heterogeneidad individual El efecto poblacional promedio oculta la historia. Un CATE bayesiano jerárquico multivariate sobre los cuatro canales permite que cada jugador tenga su propio efecto causal, con correlaciones cross-canal, priors informados por grades humanos PFF pre-torneo, y estructura de árbol—defensa, mediocampo, ataque—que permite que canales escasos de muestra hereden información de canales correlativos con más datos.

Resultado: posterior sobre el efecto heterogéneo por jugador, canal, contexto, con intervalos de credibilidad del 95% que cuantifican la incertidumbre individual sin necesidad de bootstrap.

Los datos: Qatar 2022 como laboratorio natural

Apliqué el framework al Mundial de Qatar 2022. Datos: PFF FC, tracking sincronizado a 25 Hz de los 22 jugadores, coverage completa de fase eliminatoria (52 shocks de gol en 64 partidos). Corpus de entrenamiento externo: Wyscout 2017/18 (1941 partidos sobre 5 grandes ligas europeas + Eurocopa 2016/2020) para calibración de modelos predictivos (Win Probability, atomic-VAEP, VDEP, OBSO).

Validación de la near-miss quasi-experiment: 70 near-misses sobre cinco tipologías (parada PSxG alto, palo/travesaño, fuera de juego milimétrico, parada de portero sobre PSxG alto, despeje en línea). Modelo Post-Shot xG calibrado en StatsBomb open data (Euro 2020, 2024, Bundesliga 23/24). Todos los near-misses verificados manualmente.

Identificación del shock: 172 shocks de gol únicos (120 en fase de grupos, 52 en fase eliminatoria). La composición temporal está sesgada hacia la próroga (25 de 70 near-misses en P1, 26 en P2, 19 en tiempo extra)—coherente con mayor intensidad ofensiva característica de fases abiertas.

Los resultados: promedio = cero, heterogeneidad = extrema

El efecto poblacional medio, sobre el delta relativo al bloque, es estadísticamente indistinguible de cero en los ocho contrastes canal-por-contexto:

Canal	Contexto	ATE	SE	IC 95%	n_shocks
Ofensivo	Tras marcar	+0.0000	0.0003	[-0.0005, +0.0005]	50
Ofensivo	Tras encajar	-0.0001	0.0004	[-0.0008, +0.0007]	50
Defensivo	Tras marcar	+0.0013	0.0063	[-0.0110, +0.0137]	50
Defensivo	Tras encajar	-0.0004	0.0070	[-0.0133, +0.0142]	50

El shock emocional, en promedio, no mueve. El equipo se reordena. El contexto es brutal. El jugador promedio permanece inerte.

Pero la distribución individual es donde vive la señal:

En el canal ofensivo tras marcar: σ = 0.086 desviaciones estándar, rango [-0.49, +0.37].

Esa varianza es sustancia. Mientras el ATE poblacional no llega a rebasar el ruido, hay jugadores con efectos positivos de +0.30 SD y otros con negativos de -0.40 SD. El shock emocional afecta distribuidamente.

El outlier: Kylian Mbappé

Bajo proximidad de eliminación alta (indicador pressure-clutch modulado por WP de contexto), cuatro jugadores cruzan significatividad a posterior ≥ 0.85:

Kylian Mbappé (Francia): +0.110 SD, P(β > 0) = 0.97
Marcus Rashford (Inglaterra): +0.050 SD, P(β > 0) = 0.89
Bukayo Saka (Inglaterra): +0.051 SD, P(β > 0) = 0.86
Mohammed Muntari (Qatar): -0.055 SD, P(β > 0) = 0.12 (efecto negativo significativo)

Mbappé es el único con efecto sustancial en pressure-clutch. No es "mejor en general"—su atomic-VAEP no destaca. Es que bajo presión extrema, cuando el equipo se contrae, él se expande.

Los números concretos: en los 80-82 minutos de la final Argentina-Francia, cuando el marcador era 2-2 y Argentina estaba en máxima presión de eliminación, Mbappé concentró su ofensiva. El modelo lo etiqueta como +0.11 SD de respuesta individual respecto al bloque de Francia en esa ventana temporal. Eso es una firma causal.

Validación contra grades humanos PFF

Correlación de Spearman entre los indices agregados del CCV (Remontador post-encaje, Cerrojo post-gol favor, Pressure Response) y los grades humanos PFF pre-torneo:

Métrica CCV	ρ Spearman	p	Significativa
Canal off-ball (ccv_off)	+0.211	0.006	1%
Índice Remontador	+0.177	0.022	5%
Índice Pressure Response	-0.122	0.12	—

La correlación más fuerte es off-ball (+0.21 con p=0.006): el modelo capta una dimensión de inteligencia espacial que los grades humanos también valoran. No es intercambiable (los grades agregan el partido entero; el CCV residualiza por shock), pero caminan en la misma dirección.

Implicaciones operativas: dónde funciona el framework

Scouting y mercado de fichajes: La tabla scout-facing del CCV separa, para cada jugador, la respuesta clutch atribuible a él vs. la atribuible al patrón colectivo de su equipo histórico. Un director deportivo que valora un jugador con "reputación clutch" adquirida en un equipo grande puede inspeccionar el delta relativo al bloque (ccv_table.parquet, columnas remontador_rel, cerrojo_rel) sobre el torneo objetivo y comprobar si la propiedad sobrevive al control del equipo en cada shock.

Preparación de partidos de fase eliminatoria: La identificación de "pressure-clutch leaders" por equipo orienta la gestión de cambios desde el banquillo. Los jugadores con efecto positivo significativo bajo proximidad de eliminación son candidatos naturales a recibir más minutos en tramos críticos. Los jugadores con efecto negativo significativo están documentados explícitamente.

Gestión de cambios y rotación: La celda ataque-tras-marcar muestra que veintidós jugadores presentan efecto significativo en su producción ofensiva inmediata después de anotar, incluyendo a Mbappé. Algunos perfiles ofensivos aflojan intensidad post-gol; otros la concentran (buscando el segundo tanto). Eso es información accionable para tomar decisiones sobre rotación o sustituciones tácticas post-anotación.

Limitaciones estructurales

El CCV tiene tres fronteras claras:

1. Coverage limitada a Qatar 2022: Es el único corpus público que combina eventing sincronizado, tracking a 25 Hz, grades humanos por evento, y coverage completa de fase eliminatoria. Las propiedades identificadas (pressure-clutch de Mbappé y compañía) son específicas de ese torneo. Replicar sobre Eurocopa 2024, Libertadores o Champions requiere corpus equivalentes de acceso abierto.

2. Implementaciones propias de building blocks: El canal ofensivo usa atomic-VAEP vía socceration 1.5.3 (oficial pero mantenida por autores originales, no por librería comunitaria). Los demás bloques (OBSO, VDEP estricto, exPress, atribución frame-level) son re-implementaciones propias derivadas de papers publicados. El nivel de validación es razonable para máster, pero no equivale a adopción comunitaria de librerías oficiales mantenidas. Cualquier hallazgo numérico que dependa críticamente de la implementación exacta debería contrastarse con segunda implementación cuando esté disponible.

3. Potencia limitada del quasi-experimento near-miss: Tengo 70 near-misses sobre cinco tipologías pre-registradas en un corpus de 64 partidos. Es suficiente para triangular con DiD a nivel agregado, pero insuficiente para rigor cruzado a nivel individual. La estrategia conservadora es priorizar el DiD within-player como brazo principal; la triangulación near-miss opera como verificación complementaria.

Líneas futuras

Más data en el mismo formato: Aplicar el pipeline completo sobre volumen mayor de partidos con estructura equivalente (eventing sincronizado, tracking full-pitch a 25 Hz, coverage completa de fase eliminatoria). Con más shocks por jugador, la posterior del CATE se estrecharía y las celdas hoy inconclusive podrían empezar a separar señal.

Otras competiciones: El mismo framew puede correr sobre Eurocopa 2024 (prórroga + penalties), eliminatorias de Champions League, o Libertadores (formato ida-vuelta). Cada contexto emocional introduce dimensiones distintas sobre las que medir la respuesta individual.

Ampliación del corpus de near-miss: Construir banco multitorneo de near-misses acumulados sobre cientos de partidos permitiría ejecutar triangulación DiD ↔ AIPW rigurosamente a nivel individual, no solo agregado.

Portabilidad a valoración de equipos: El delta colectivo del bloque—lo que el leave-one-out sustrae de la respuesta individual—también es informativo por sí mismo. Agregar el CCV a nivel de equipo con la misma maquinaria causal produciría una métrica de "identidad reactiva del bloque"—qué tan coherentemente un equipo responde colectivamente a shocks emocionales. Eso complementaría la lectura por jugador con una lectura institucional.

La reflexión final

Esto no responde si el clutch es innato o entrenable. Eso requiere estudio longitudinal que este proyecto no es.

Lo que sí demuestra es que existe una dimensión de la respuesta emocional que:

Es estadísticamente identificable a nivel individual con datos de tracking sincronizado y causal rigor (DiD + near-miss + CATE bayesiano jerárquico)
Es heterogénea: el jugador promedio no se mueve; la distribución individual es extrema
Es contextual: solo emerge bajo presión de eliminación inminente, no en contextos genéricos post-gol
Es validable: correlaciona direccionalmente con grades humanos de inteligencia espacial, sin pretender ser idéntica a esos grades
Es operativa: produce outputs (tabla scout-facing, rankings por contexto) que un club puede actuar directamente

La literatura deportiva ha medido "choking under pressure" desde hace años. Otten (2009) definió el clutch como "aumento de rendimiento bajo presión". Pero ese rendimiento se medía via cuestionarios o evento puro. Aquí, por primera vez en fútbol, está cuantificado causalmente a partir de tracking continuo, separado del patrón colectivo, con incertidumbre individual, sobre un torneo completo.

¿Es innato o aprendible? No sé. Pero ahora sabemos que existe, sabemos dónde buscarlo, y sabemos quiénes lo tienen.

Código y datos públicos en GitHub CCV

Agradecimientos a Pablo Sanzol, David R. Sáez Ávila y Miguel Ángel del Barrio.

TFM: Causal Clutch Value. El rendimiento bajo presión que el fútbol no mide

Causal Clutch Value

El problema

La proposición: un framework en seis requisitos simultáneos

La arquitectura: cinco capas de identificación causal

Los datos: Qatar 2022 como laboratorio natural

Los resultados: promedio = cero, heterogeneidad = extrema

El outlier: Kylian Mbappé

Validación contra grades humanos PFF

Implicaciones operativas: dónde funciona el framework

Limitaciones estructurales

Líneas futuras

La reflexión final

Opta Forum 2026. Ganador, Categoría Analysis

Opta Forum 2026

Opta Forum 2026. Ganador, Categoría Analysis

Opta Forum 2026. Ganador, Categoría Analysis