Algunas estimaciones afirman que en este año fracasará el 85% de los proyectos empresariales de Data Science.[1] Entre las principales causas se señalan: 1) falta de claridad en la fijación de objetivos, 2) datos de baja calidad y 3) falta de colaboración entre los equipos. Para evitar este tipo de problemas sería razonable aplicar un enfoque que ya se ha mostrado eficaz en otros ámbitos. Se trata del EDA (Exploratory Data Analysis) tal como lo concibió originalmente John Tukey, y que desde hace años es recomendado por el National Institute of Standards and Technology (NIST).
¿Qué es el EDA de Tukey?
El EDA es un enfoque analítico impulsado por el destacado estadístico estadounidense John Tukey, que difiere sustancialmente del análisis exploratorio de datos clásico.[2]
En los inicios de la Ciencia de Datos Tukey se ocupó de sistematizar la organización, descripción y representación de grandes volúmenes de información, yendo más allá de las restricciones que imponen los métodos estadísticos clásicos. Su objetivo principal fue lograr la comprensión profunda de todos los datos disponibles para promover hallazgos novedosos y para facilitar la correcta asignación de parámetros en los modelos de inferencia y predicción.
Los trabajos de Tukey dieron como resultado la consolidación de un nuevo enfoque analítico al que denominó Análisis Exploratorio de Datos (EDA por sus siglas en inglés), y que fue presentado originalmente en 1977.
El EDA de Tukey fue exitosamente incorporado en el ámbito de la investigación científica y tecnológica. Por ejemplo en la actualidad forma parte de los métodos estadísticos impulsados por el National Institute of Standards and Technology (NIST) para favorecer la innovación y la mejora de la competitividad industrial. [3]
¿En qué consiste el EDA y en que difiere del análisis exploratorio clásico?
El Engineering Statistics Handbook[4] del NIST expresa que el EDA de Tukey no se limita a una mera colección de técnicas, sino que se trata de una nueva filosofía de análisis que cambia radicalmente la forma tradicional en que se diseccionan, se miran y se interpretan los datos.
Un aspecto central de esta nueva filosofía es el cambio en la perspectiva que debe adoptar el analista. En la metodología tradicional el analista actúa como un juez y su principal objetivo es determinar el modelo que debe utilizar para obtener conclusiones y predicciones válidas. En cambio en el EDA el analista debe comportarse como un detective que tiene como objetivo buscar pistas que le permitan formular nuevas hipótesis. Tukey expresa que el EDA es un “trabajo de detectives - detective numérico o detective de cuentas o detective de gráficos”.[5] Este cambio de perspectiva lleva a que el EDA redefina radicalmente el foco y los objetivos que deben conducir el proceso de análisis.
El otro aspecto central del EDA es que no se limita a aplicar las técnicas estadísticas clásicas. El análisis exploratorio clásico se basa en el uso indicadores estadísticos (como la media y la varianza) para resumir y entender los datos. Tukey expresa que el enfoque clásico presenta un gran problema, pues esos indicadores “solo son índices descriptivos convenientes cuando la distribución de los datos es aproximadamente normal, o al menos simétrica y con un pico central”. Cabe acotar que por ejemplo cuando se analiza una variable que sigue la ley potencial (power law) -, como son las variables tipo Pareto (el clásico 80:20) - estos indicadores se vuelven casi inútiles.
Para evitar este tipo de restricciones el EDA utiliza técnicas diferentes. En primer lugar hace uso de indicadores de posición como la mediana, quintiles, deciles, etc. que presentan la ventaja de que “muchas veces se pueden usar sin necesidad de ningún supuesto” y además que también pueden aplicarse a variables clasificatorias no cuantitativas. En segundo lugar el EDA hace un uso intensivo de técnicas gráficas, pues: “Las representaciones visuales son superiores a las representaciones numéricas para descubrir la forma característica de una distribución”.
Es importante anotar que algunas técnicas graficas del EDA en la actualidad pueden sustituirse mediante algoritmos de inteligencia artificial que agilizan el proceso de exploración, en especial cuando se trata de analizar las relaciones entre muchas variables.[6]
¿Qué beneficios presenta el EDA para las empresas?
Para obtener los mayores beneficios del EDA de Tukey lo más conveniente sería incorporarlo en las primeras fases de los proyectos predictivos y prescriptivos. Esto permitiria obtener un conocimiento profundo sobre los datos antes de realizar la selección, entrenamiento y validación de los modelos predictivos. A continuación se describe como el EDA puede contribuir con: el control de calidad de los datos, la colaboración entre equipos y la definición de los objetivos de un proyecto.
El EDA profundiza los alcances del análisis de calidad de los datos
La validación de datos clásica suele tener como principal objetivo la depuración de errores, ruidos e inconsistencias. En algunos casos se añaden pruebas de bondad de ajuste e índices de correlación para las principales variables.
En cambio, como se ha dicho antes, el EDA aporta información sugerente sobre todas las variables y sus relaciones, para promover el trabajo detectivesco. De esta forma el analista puede encontrar rápidamente pistas que le permiten identificar errores de contenido, sesgos, relaciones llamativas, etc., tanto para variables cuantitativas como para las clasificatorias. Como todo esto ocurre antes de seleccionar, parametrizar y entrenar los modelos, se evitan retrocesos y reconsideraciones, lo que ahorra esfuerzos y costos.
Cómo el EDA favorece la colaboración entre equipos y la definición de objetivos
Uno de los factores que dificulta la comunicación y la colaboración entre el equipo de científicos de datos y el equipo de profesionales del negocio (como gerentes, expertos, consultores, etc.) es que hasta que no se han puesto en marcha los modelos no se produce demasiada información para intercambiar entre ellos. Esto se debe a que habitualmente el equipo de científicos de datos comienza trabajando en aspectos estadísticos y técnicos propios de su disciplina, y que suelen carecer de interés para los profesionales del negocio. Como consecuencia el diálogo verdaderamente fluido entre los equipos comienza recién cuando se empiezan a generar las primeras predicciones, lo que ocurre en etapas avanzadas del proyecto.
En cambio al incorporar el EDA en las primeras fases del proyecto se crean rápidamente hallazgos concretos que impulsan el diálogo y la colaboración. Por ejemplo, los hallazgos de relaciones llamativas entre las variables tienen sentido para todos los involucrados. Por una parte son de interés para los científicos de datos pues les permiten identificar sesgos y potenciales problemas, y también son de interés para los profesionales del negocio porque describen situaciones concretas que se relacionan con potenciales oportunidades o problemas. De esta forma, mediante la producción e intercambio de información relevante se favorece la comunicación entre los equipos desde las primeras etapas del proyecto.
Por otra parte, al favorecer el diálogo entre equipos, el EDA también facilita la definición de los objetivos. Esto se debe a que la utilidad final de las predicciones sin duda debe ser definida por el equipo de profesionales del negocio, pero a su vez la posibilidad de implementarlas depende de condiciones técnicas como disponibilidad de información, existencia de modelos adecuados, capacidad de procesamiento, etc., que dependen del equipo de científicos de datos. Es por eso que el diálogo fluido entre ambos equipos crea condiciones para clarificar la definición de objetivos y para establecer los alcances con precisión.
Un beneficio adicional: el EDA como incentivo para la innovación
Hasta el momento se habló de los beneficios del EDA de Tukey en relación a proyectos predictivos o prescriptivos. Pero el EDA es también un excelente enfoque para el análisis descriptivo, pues favorece la innovación mediante descubrimientos “sugestivos, indicativos y perspicaces”.[7] Esto ocurre especialmente cuando los datos contienen muchas variables que dificultan la identificación de cuáles son las situaciones concretas que pueden producir oportunidades o problemas específicos y relevantes para el negocio.
Justo Miranda – Marzo 2022
Notas:
[1] Ver por ejemplo:
- · https://research.aimultiple.com/ai-fail/
- · https://towardsdatascience.com/machine-learning-in-production-why-is-it-so-difficult-28ce74bfc732
- · https://www.iiot-world.com/industrial-iot/connected-industry/why-85-of-machine-learning-projects-fail/
- · https://www.businesswire.com/news/home/20190523005183/en/Survey-96-of-Enterprises-Encounter-Training-Data-Quality-and-Labeling-Challenges-in-Machine-Learning-Projects
- ·https://sloanreview.mit.edu/article/why-so-many-data-science-projects-fail-to-deliver/
[2] John Tukey además de impulsar el EDA es conocidos por ser el creador del algoritmo FFT (Fast Fourier Transformation) que resultó fundamental para desarrollar aplicaciones avanzadas de estadísticas y procesamiento de señales. Tukey también fue uno de los impulsores del uso de la computación gráfica aplicada al análisis de datos y es el creador de los diagramas de cajas o “box plot”.
[3] El Instituto Nacional de Estándares y Tecnología (NIST) es un laboratorio de ciencias físicas y una agencia no reguladora del Departamento de Comercio de los Estados Unidos. Su misión es promover la innovación y la competitividad industrial https://www.itl.nist.gov
[4] Se puede consultar el manual en línea del EDA del NIST en: https://www.itl.nist.gov/div898/handbook/eda/eda.htm
[5] Todas las citas de Tukey provienen de su libro Exploratory Data Análysis, 1977
[6] Nuestro equipo trabaja en el desarrollo de software basado en IA para implementar el EDA de Tukey desde hace varios años. Los interesados en conocer estos desarrollos pueden visitar www.complexus.pro y www.intelligentiahealth.com
[7] Ver https://www.itl.nist.gov/div898/handbook/eda/eda.htm