El fútbol hoy: analítica y visualización de datos

Thumbnail

Tags: Agüero; Análisis de Alta Dimensión; Análisis Topológico de Datos; data mining; English Premier League; Kane; Leicester; Mahrez; Özil; Vardy

Columnista invitado: David Perdomo

Correo electrónico: dperdomomeza@gmail.com

El data mining ha revolucionado el mundo de los negocios. La combinación de creciente disponibilidad de datos con la globalización de los mercados hace que el descubrimiento de la más mínima ventaja competitiva signifique retornos de millones de dólares. Difícilmente podía quedarse atrás el negocio del fútbol.

Sobre el campo de juego, los futbolistas realizan miles de acciones por partido. Empresas especializadas en proveer estadísticas deportivas como OPTA o Prozone emplean un ejército de ‘recopiladores’ que por una remuneración escasa saltan ante la posibilidad de ganarse la vida viendo video tras video de fútbol y registrando tantos eventos como les sea posible. Para cada jugador en cada partido registran la cantidad de pases que hizo (con cada pierna claro), la cantidad de veces que tocó el balón, cuantas veces sacó de banda o cuantas veces controló con el muslo izquierdo. Literalmente miles de eventos son registrados.

Estas empresas luego les venden paquetes de estadísticas a los clubes, que si bien reconocen la necesidad de intentar sacar provecho y ventajas competitivas de esta nueva ola de información, aún no saben muy bien cómo hacerlo.

Es fácil pensar en extraer información de una estadística. Un proceso típico que hacemos es mirar la tabla de goleadores y asumir que al ver quienes han metido más goles podemos obtener información como la calidad de cada delantero.

¿Qué pasa cuando tenemos dos? Tampoco parece demasiado difícil. Considere la tabla donde se muestran los 24 jugadores con mayor valor de ‘goles+asistencias’ jugada la fecha 34 de la temporada 2015-16 de la Premier League.

Figura 1
Figura 2

De nuevo podemos pensar en extraer algún tipo de información de estos datos ‘dos-dimensionales’. Podemos diferenciar tres tipos de jugadores que le aportan a ese valor total de goles: jugadores que anotan mucho pero asisten poco como Agüero y Kane, jugadores que asisten mucho pero anotan poco como Ozil, o jugadores que aportan en ambos ítems como los sorprendentes Mahrez y Vardy del Leicester. Es una conclusión sencilla, casi trivial; la representación en dos dimensiones nos deja la información ahí, muy disponible. El proceso analítico de interpretar este tipo de información y extraer significado concreto nos es sumamente natural.

¿Qué pasa ahora cuando tenemos más de 200 estadísticas? OPTA en asociación con Manchester City puso disponible para el público general una base de datos de la temporada 2011-12 de la Premier League, en la cual recogen más de 200 estadísticas de juego para cada jugador en cada partido de esa temporada. ¿Podemos extraer información o significado de igual manera de este tipo de datos?

Topological Data Analysis (TDA) es una técnica matemática cuyo objetivo a grandes rasgos es justamente ese: extraer información y significado cualitativo de datos de alta dimensión. Por ejemplo, ha sido utilizada exitosamente para analizar datos genéticos de pacientes de cáncer y descubrir patrones entre grupos de sobrevivientes. La clave está en pensar en los datos como estando ubicados en un espacio de dimensión 200. Parece abrumante, pero en realidad es bastante natural. En el ejemplo de ‘goles+asistencias’, cada jugadores podía verse como un punto en el plano, con dos coordenadas. Si hubiésemos agregado una tercera estadística como ‘pases’, cada jugador podría verse como un punto en el espacio 3-dimensional con tres coordenadas. Esta conceptualización se puede extrapolar a espacios con 200 coordenadas, y hay un área de las matemáticas puras dedicada a describir las nociones geométricas de estos espacios como forma, cercanía, regiones, etc.

Al aplicar TDA a un conjunto de datos, el resultado es una representación en dos dimensiones de los datos originales en la forma de un grafo, donde cada nodo representa una agrupación de los datos originales y los vértices están determinados de cierta forma que las distancias y la forma de los datos en su espacio original sean conservados bajo ciertos parámetros en su nueva representación. Al mirar el resultado podemos intuir alguna información acerca de la disposición original de los datos en su espacio alto-dimensional. El detalle matemático en realidad es algo técnico, pero lo importante es que le representación como grafo carga algunas propiedades geométricas básicas de los datos.

Las siguientes imágenes muestran la aplicación de TDA a la base de datos publicada por OPTA:

Figura 3

Cada nodo representa un grupo de jugadores, cuyo color está dado por las posiciones de estos como la leyenda indica. Podemos observar en primera instancia como la ‘geometría’ de las más de 200 coordenadas reconoce diferentes posiciones y estilos de juego entre los jugadores. Sabe diferenciar claramente entre defensores, volantes y delanteros; y diferencia inclusive subcategorías más específicas como las que aparecen circuladas. El mismo grafo se puede ‘colorear’ utilizando un parámetro diferente a la posición de juego:

Figura 4

Esta vez, cada nodo tiene el color correspondiente a la posición final en la tabla del equipo en el cual militan los jugadores que lo componen como lo indica la leyenda. Una vez más podemos apreciar que esta información está disponible en la geometría de las coordenadas, pues los nodos de diferentes colores aparecen en diferentes regiones del grafo en lugar de estar mezclados. Esto quiere decir que hay algo en la combinación de todas las estadísticas consideradas de jugadores de equipos “grandes” que los diferencian de los jugadores de equipos “chicos”. Asumiendo que en una liga tan sofisticada como la Premier League, diferenciar entre la calidad del equipo es sinónimo de diferenciar entre la calidad del jugador; podemos empezar a anticipar el potencial de descubrir este tipo de información acerca de jugadores jóvenes de ligas desconocidas.

Este último punto es importante: esta metodología nos permite detectar que cualidades están sustentadas por la información contenida en la ‘disposición geométrica’ de las más de 200 estadísticas que estamos considerando simultáneamente. El próximo ejemplo puede ilustrar esto un poco mejor:

Figura 5

Este grafo es el resultado de aplicar la técnica a unos datos ligeramente diferentes, donde cada nodo está compuesto por el desempeño en un partido de un equipo entero, en lugar de ver cada jugador individualmente. Vemos como de las dos coloraciones, la de la izquierda (el puesto final en la tabla) está mucho menos mezclada que la de la derecha (resultado específico de cada partido). Mientras que el desempeño de equipos ‘top’ sucede en cierta “zona” en el espacio 200-dimensional, no se puede decir lo mismo de los desempeños que terminaron en derrota, que suceden mezclados con los empates y las victorias. Esto se interpreta así: mientras que la información de la calidad de un equipo (visto como su puesto final en la tabla) se encuentra ‘codificada’ dentro de la combinación de las estadísticas que estamos considerando y se ve reflejada en su disposición geométrica (cuales puntos están cerca a cuales otros), no se puede decir lo mismo del resultado especifico del partido. Las estadísticas consideradas no saben predecir con precisión cual va a ser el resultado final de un partido, esto se puede deber al azar de un palo o un penalti. Lo que si pueden ‘pronosticar’ es el puesto final en la tabla de un equipo; esta información subyacente de ‘calidad’ si está disponible al estudiar las estadísticas de juego.

Otro tipo de conclusiones relevantes también se pueden obtener de la aplicación de esta metodología; por ejemplo el hecho de que para la temporada 2011-12 el Chelsea y el Fulham (6º y 9º) empleaban un estilo bastante similar.

Este tipo de investigaciones son importantes para el fútbol pues establecen que hay campo para que la recolección masiva de datos se encuentre con aplicaciones valiosas futbolísticamente. Hemos establecido que hay técnicas que le pueden sacar provecho a conjuntos de datos sumamente grandes que parecen abrumantes e inservibles para los métodos tradicionales para analizarlos, y la información extraída puede ser utilizada para revolucionar áreas emocionantes del fútbol como el reclutamiento de talento.

 

golyfutbol
comments powered by Disqus