Descubriendo el valor oculto en los datos con modelos de M.L. para impulsar decisiones estratégicas.
Como Trabajo de Fin de Máster (TFM) en Data Science & Business Analytics, buscaba crear un modelo capaz de explicar y predecir la supervivencia de los pasajeros del Titanic más allá de los factores típicos conocidos por todos (como ser mujer o niño).
Para ello desarrollé un conjunto de modelos de Inteligencia Artificial (IA) predictiva y aunque el dataset es ampliamente conocido en la comunidad de data science, el enfoque del proyecto fue más allá de las predicciones básicas, buscando entender las correlaciones y causalidades detrás de las variables.
La idea era analizar si existía una causalidad real entre las distintas variables y descubrir patrones ocultos que influyeran en la supervivencia, consiguiendo modelos con hasta un 87% de precisión capaces de ofrecer una explicabilidad sobre las razones detrás de las predicciones.
Desarrollé el proyecto de forma integral:
Recolección y preprocesamiento de datos: Realicé la ETL (Extracción, Transformación y Carga) del dataset público de la competición de Kaggle Titanic Survivor, incluyendo la limpieza, normalización y creación de variables sintéticas.
Modelado predictivo: Diseñé y entrené seis modelos de IA diferentes, ajustando hiperparámetros para maximizar la precisión sin sobreajustar.
Análisis y visualización: Implementé análisis exploratorio y visualización de datos para comprender mejor las relaciones entre las variables y la variable objetivo (supervivencia).
Documentación y presentación: Elaboré la memoria del TFM, presentaciones ejecutivas y defendí el proyecto ante el tribunal académico.
El primer paso fue comprender el contexto histórico y operativo del Titanic, analizando qué factores podrían haber influido en la supervivencia. Posteriormente, se cargaron los datos proporcionados por Kaggle, comenzando el análisis exploratorio.
La fase de preprocesamiento fue crítica para garantizar la calidad de los datos:
Limpieza de datos: Aseguré la consistencia, unicidad, veracidad y exactitud de los datos, eliminando registros duplicados o incorrectos.
Creación de variables sintéticas: Generé nuevas variables derivadas de las originales para mejorar la capacidad predictiva de los modelos. Por ejemplo, combiné variables como edad y clase para identificar patrones más complejos.
Detección y eliminación de outliers: Identifiqué valores atípicos que podrían distorsionar los resultados y los eliminé para mantener la integridad del modelo.
Realicé un análisis exploratorio utilizando Seaborn y Matplotlib para visualizar las relaciones entre la variable objetivo (supervivencia) y las variables predictoras. Se estudiaron correlaciones y patrones ocultos que no eran evidentes a simple vista.
Desarrollé y entrené un total de seis modelos predictivos distintos:
Random Forest
Regresión Logística
Support Vector Classifier (SVC)
K-Nearest Neighbors (KNN)
Red Neuronal
Red Neuronal con Keras
Cada modelo fue entrenado utilizando un conjunto de datos de entrenamiento (train) y validado con datos no vistos por los modelos (test).
Para evaluar la precisión de los modelos, utilicé métricas como:
Accuracy: Para medir la proporción de predicciones correctas.
AUC-ROC: Para evaluar la capacidad del modelo de distinguir entre clases.
Se compararon los resultados de todos los modelos, ajustando hiperparámetros para mejorar la precisión sin sobreajustar.
Los modelos obtuvieron precisiones entre el 76% y el 88%., destacando Random Forest como el modelo más preciso sobre datos no vistos anteriormente, alcanzando un 88% de acierto.
Más allá de los factores típicos (niños y mujeres primero), el modelo identificó variables menos obvias que influyeron en la supervivencia, como la ubicación de la cabina o el número de familiares a bordo.
El uso de Random Forest no solo proporcionó alta precisión, sino que también permitió analizar la importancia de las variables, ofreciendo una visión clara de por qué ciertos pasajeros tenían más probabilidades de sobrevivir.
Aunque este proyecto está basado en un caso específico (Titanic), las técnicas y metodologías aplicadas son totalmente transferibles al mundo empresarial:
Predicción de comportamientos: Los modelos pueden adaptarse para predecir comportamientos de clientes, como la probabilidad de compra, la fidelización o el abandono de servicio (churn).
Optimización de procesos: El análisis de variables y su impacto permite a las empresas optimizar procesos internos, como la asignación de recursos o la segmentación de clientes.
Automatización de toma de decisiones: Estos modelos pueden integrarse en sistemas de automatización de decisiones, mejorando la eficiencia y reduciendo errores humanos.
El mayor desafío no fue el desarrollo de los modelos, sino el preprocesamiento y la creación de variables sintéticas. Sin datos de calidad, la precisión de los modelos se ve gravemente afectada.
La optimización de los modelos fue un proceso iterativo que requirió ensayo y error para ajustar los hiperparámetros y encontrar el equilibrio entre precisión y sobreajuste.
Aprendí la importancia de la explicabilidad en los modelos de IA. No basta con obtener predicciones precisas; es fundamental entender por qué el modelo toma ciertas decisiones.