En el fascinante mundo de la ciencia de datos, donde la precisión se entrelaza con la creatividad, se encuentra un proceso vital que transforma datos aparentemente simples en información valiosa: el análisis de datos.
En este artículo, exploraremos los cinco pasos esenciales para realizar un análisis de datos efectivo, utilizando una analogía culinaria para desglosar cada etapa.
Hay quienes dicen que la cocina es a la vez una ciencia y un arte. Una ciencia pues hay una serie de pasos que debemos seguir de manera precisa (muy al pie de la letra) para que un plato salga tal como lo imaginamos.
Basta con que modifiquemos un poquito la temperatura o añadamos más de lo que debíamos de un ingrediente y podríamos malograr todo el plato. Pero a la vez es un arte porque involucra una gran parte creativa.
Del mismo modo, podemos decir, que la ciencia de datos es mitad ciencia, mitad arte. Es una ciencia pues también hay una serie de pasos que se deben seguir para extraer información significativa de los datos planos. Pero a su vez, la visualización y presentación de los mismos exige un gran esfuerzo creativo.
Considerando esto, hoy vamos a usar una analogía culinaria muy sencilla para explicar la ciencia de datos. Pero antes de ir directamente a los pasos, definamos qué es y cuál es su propósito.
¿Qué es la ciencia de datos y cuál es su propósito?
La ciencia de datos es un campo interdisciplinario: muchas industrias se ven beneficiadas por el trabajo de los científicos de datos.
Requiere bastante matemática, estadística y programación; por lo que se considera una disciplina STEM (Science, Technology, Engineering and Math).
La última milla de la ciencia de datos es la toma de decisiones. ¿Qué quiere decir esto? Pues que vamos a extraer datos, información o descubrimientos valiosos para ayudar a terceros a tomar decisiones, y que con estas decisiones se puedan resolver problemas o hacer mejoras. ¡Esto es muy importante!
Si no hay una decisión al final, entonces no estamos hablando de ciencia de datos. Si hacemos un gráfico y ese gráfico no ayuda a tomar una decisión, podemos estar haciendo creación de gráficos en Excel, o lo que sea, pero no data science.
Ahora sí, pongámonos el mandil e imaginemos que somos chefs y nuestro objetivo es preparar una comida para los invitados.
1. Los ingredientes: los datos
Para preparar cualquier receta, necesitamos ingredientes. En la ciencia de datos, los ingredientes son los datos. Sobre estos, hay dos puntos importantes a tener en cuenta:
¿Cómo los obtenemos? Para cocinar, usualmente compramos los ingredientes en un supermercado; para ello, necesitamos hacer una lista de compras.
En la ciencia de datos, a diferencia de la cocina, no compramos los datos; sino que los obtenemos a partir de la operación de las transacciones de un negocio o un proyecto.
¿Cuál es su calidad? Otro punto importante es la calidad de los ingredientes. Así como un chef necesita ingredientes frescos y de alta calidad para crear un plato delicioso; un científico de datos confía en datos relevantes y precisos para descubrir información valiosa. La calidad de los datos afectará significativamente el resultado del análisis.
2. Recolección de ingredientes: recopilación de datos
Una vez que tenemos claros los ingredientes que necesitamos y sabemos donde encontrarlos, como segundo paso, tenemos que recolectarlos.
Antes de que un chef pueda empezar a cocinar, debe reunir los ingredientes necesarios. De manera similar, un científico de datos debe recopilar datos de diversas fuentes (como bases de datos, encuestas o sensores) y recopilarlos en un solo lugar. Este proceso puede implicar web scraping, extracción de datos o entrada manual de datos.
3. Preparación: limpieza y procesamiento de datos
Una vez que tenemos todos los ingredientes reunidos, un chef necesita prepararlos. Esto puede implicar lavarlos, pelarlos, cortarlos, rallarlos, entre otros procesos. Aún no los estamos cocinándolos propiamente, sólo los estamos dejando listos para ser cocinados. Esta parte demora bastante pues la preparación es compleja y debemos tener mucho cuidado.
Los científicos de datos también necesitan limpiar y preprocesar sus datos, para eliminar errores, inconsistencias y valores faltantes. Esto garantizará que los datos estén listos para el análisis. Como en la cocina, este proceso toma mucho tiempo. Gran parte de lo que hacemos los científicos de datos es limpiar datos, verificar datos, escarbar en los datos para ver cuál es la inconsistencia, cuál es la discrepancia.
4. Cocción: análisis y modelado de datos
Con los ingredientes listos, el chef puede empezar a cocinar. Para ello, aplicará diversas técnicas o herramientas (sartén, horno, airfryer, etc.) para transformar los ingredientes en una comida deliciosa.
El proceso de cocción no es tan complicado. Es un proceso que dura 30 o 40 minutos; quizá 50, si horneamos. Pero un aspecto crucial para que se cocinen bien es haberlos preparado correctamente.
Los científicos de datos, por su lado, utilizan técnicas estadísticas y algoritmos de aprendizaje automático para analizar y modelar los datos. Esto implica explorar patrones, identificar tendencias y construir modelos predictivos.
5. Presentación del plato: visualización y comunicación de datos
El último paso de un chef es presentar el plato de forma atractiva y apetecible. Los científicos de datos también necesitan presentar sus platos de manera eficaz. Para ello utilizan técnicas de visualización de datos, como cuadros, gráficos y paneles; para presentar sus conocimientos de una manera clara y comprensible.
Ahora, imaginemos que algo salió mal y el plato sabe horrible. Aunque lo presentemos de una manera muy elegante, nadie se lo querrá comer. Lo mismo pasa con los datos si los presentamos de una manera elegante pero el análisis es muy malo o si su calidad es deficiente debido a que no los preparamos bien: no van a servir.
Esta parte es interesante porque todo entra por los ojos. Si un plato se ve bien, se ve apetitoso, vamos a querer comerlo. Igualmente pasa con los datos, cuando visualizamos y comunicamos de manera correcta (usando gráficos, elementos de comunicación y storytelling) es más fácil que la gente “se antoje de los datos”; es decir, que pueda recibir el mensaje de manera correcta.
Ahora que conoces los pasos esenciales para realizar un análisis de datos efectivo y has descubierto el fantástico mundo del data science, te invitamos a dar el siguiente paso en tu carrera con la Maestría en Ciencia de Datos de la Escuela de Posgrado de la Universidad Continental. ¡Solicita más información hoy!
* Este blog ha sido elaborado en base a un webinar brindado por Alan Ferrándiz Langley el 4 de diciembre de 2023. Acceder al webinar completo aquí.