Análisis de Clustering

Segmentación inteligente

5 Clústeres con Ventanas Horarias de Engagement

Contexto y Variables Clave

Este análisis parte de una base de datos de 212.292 usuarios vinculados a una campaña de email marketing. El objetivo es segmentar la base para identificar patrones de comportamiento y diseñar estrategias de comunicación más efectivas.

Variable Descripción Naturaleza
id Identificador único de cada usuario Categórica nominal
send Cantidad de correos enviados Numérica (conteo)
bounce Cantidad de correos rebotados Numérica (conteo)
open Número de aperturas de correo Numérica (conteo)
click Número de clics en enlaces Numérica (conteo)
buyer Indica si realizó una compra Binaria (0/1)
hour Hora más representativa de interacción Numérica (0–23)
day_of_week Día más representativo de interacción Numérica (0=Lunes, 6=Domingo)
📌 Nota metodológica: la variable hour y day_of_week representan la hora y el día más típicos de interacción de cada usuario, no un promedio aritmético exacto.

Limpieza y Preprocesamiento de Datos

Análisis exhaustivo de calidad de datos y estrategias de transformación para clustering.

Limpieza de Datos

7.2% de registros con inconsistencias en total
17 registros con inconsistencias graves eliminados
Inconsistencias detectadas:
send = bounce + interacción 6 registros
bounce > send 11 registros
send = 0 y interacción > 0 0 registros
valores negativos 0 registros
Se eliminó la columna total por inconsistente e innecesaria, y se removieron las 17 filas con inconsistencias graves para garantizar la integridad de los datos.

Lógica de las Transformaciones Aplicadas

Transformaciones logarítmicas (send, delivered): Apliqué esta transformación solo a estas dos variables porque, aunque tenían un sesgo positivo marcado (muchos valores pequeños y algunos muy grandes), no estaban dominadas por ceros. De esta forma, el log reduce la influencia de valores extremos y genera distribuciones más balanceadas para el clustering. En variables con muchísimos ceros (ej. open, click), el log no aporta mejoras, ya que la concentración de ceros persiste; en esos casos preferí utilizar únicamente escalado robusto.

Transformaciones trigonométricas (hour, day_of_week): Estas variables de tiempo no podían ser interpretadas correctamente por el algoritmo en su forma original, ya que después de las 23h sigue la 0h, y eso no es lineal. Por eso las transformé en sin_day, cos_day, sin_hour y cos_hour, de modo que el modelo pudiera capturar su naturaleza cíclica.

Escalado con RobustScaler: Como la mayoría de las variables tenían gran cantidad de outliers, opté por este método de normalización, que es menos sensible a valores extremos. Además, es indispensable que todas las variables queden en una misma escala para que el algoritmo de clustering pueda calcular distancias y formar los grupos de manera coherente.

Análisis de Distribuciones

Variable Sesgo % Ceros % Outliers Evaluación
send 3.37 0.00% 3.99% Alto sesgo
bounce 8.40 80.08% 19.92% Muchos ceros y outliers
open 16.92 78.45% 21.55% Muchos ceros y outliers
click 67.36 96.29% 3.71% Sesgo extremo y ceros
buyer -0.48 38.34% 0.00% Binaria
delivered 2.83 18.51% 3.93% Sesgo moderado
open_rate -0.19 23.65% 0.00% Aceptable
click_rate -2.28 79.31% 20.69% Muchos ceros y outliers
sin_day -1.06 3.96% 20.06% Trigonométrica
cos_day 0.10 0.00% 0.00% Trigonométrica
sin_hour 2.23 0.09% 14.67% Trigonométrica
cos_hour -0.64 0.00% 0.00% Trigonométrica
Los outliers se calcularon usando el método IQR (Q1 - 1.5*IQR, Q3 + 1.5*IQR).
Las variables open_rate y click_rate se originaron en la ingeniería de características.

Estrategias de Preprocesamiento Aplicadas

Variables de conteo (send, delivered)

Transformación logarítmica (log1p) para reducir asimetría
+ RobustScaler para manejar outliers

Variables con muchos ceros (>70%)

bounce, open, click, open_rate, click_rate
Solo RobustScaler

Variable binaria (buyer)

RobustScaler para suavizar su peso en el clustering

Variables temporales (hour, day_of_week)

Transformación trigonométrica para capturar ciclicidad
→ sin_day, cos_day, sin_hour, cos_hour
+ RobustScaler para homogeneizar magnitudes

Nota técnica: Para variables con alta concentración de ceros, transformaciones como Box-Cox o Yeo-Johnson no resuelven el problema fundamental, ya que la presencia masiva de ceros representa un patrón real del comportamiento de los usuarios, no un error de medición.

Modelo de Clustering: K-means

¿Por qué K-means?

  • ✔ Algoritmo eficiente y probado para segmentación de grandes volúmenes de clientes.
  • ✔ Forma grupos buscando que los usuarios dentro de un cluster se parezcan entre sí y sean distintos de otros clusters.
  • ✔ Fácil de interpretar y comunicar a equipos de negocio (marketing, RRHH).

Método del Codo (Inercia vs K)

K=5 marcado

Coeficiente de Silhouette vs K

K=5 marcado

Definición del número de clusters

Aunque el coeficiente silhouette fue mayor en K=3, elegí K=5 porque ofrece un mejor equilibrio: mantiene una separación aceptable entre grupos, pero permite mayor granularidad para diseñar estrategias de marketing y RRHH más personalizadas.

Metodología de Análisis de Clusters

Una vez asignada la etiqueta de clúster a cada usuario, realicé un análisis multidimensional para interpretar los segmentos desde perspectivas de negocio y marketing. El objetivo fue caracterizar a cada grupo según tamaño, comportamiento de interacción, conversión y dinámica temporal.

Dimensiones Analizadas

  • Tamaño Cantidad de usuarios y proporción de compradores.
  • Interacción Tasas de entrega, apertura, clics y rebote (open rate, CTR, CTOR).
  • Conversión Compradores por interacción: desde clic, desde apertura o sin interacción.
  • Engagement Indicadores compuestos que combinan interacción y conversión.

Dimensión Temporal

  • Reconstrucción de patrones de días y horas de mayor actividad.
  • Identificación de ventanas horarias óptimas mediante percentiles (IQR).
  • Diferenciación entre días laborables vs. fines de semana.

¿Por qué este enfoque?

Un análisis tradicional se limitaría a medir tasas globales o al pico de actividad (la moda). En cambio, este enfoque permite detectar patrones de interacción más ricos y realistas: no solo cuándo ocurre el máximo, sino también los intervalos de tiempo y las condiciones (día laboral vs. fin de semana) donde cada clúster tiene mayor probabilidad de interactuar. Esto habilita estrategias de comunicación específicas y efectivas para cada segmento.

Los 5 Clusters

Identificación de 5 arquetipos de clientes con distintos niveles de interacción, conversión y entregabilidad.

Resumen Ejecutivo

  • Cluster 0 (29.374): problema serio de entregabilidad (entrega ≈ 9,2%, rebotes ≈ 62,5%). Necesita limpieza inmediata.
  • Clusters 1 (48.680) y 2 (121.938): muchos compradores pero la mayoría no interactúa por email (86,6% y 75,7%). Compran por otros canales.
  • Clusters 3 (5.598) y 4 (6.685): segmentos premium para email, con alta entregabilidad y CTR. Ideales para campañas focalizadas.
  • Prioridad: limpieza urgente de Cluster 0; estrategias cross-channel en 1–2; campañas VIP en 3–4.

Cluster 0: Alta falla / Entregabilidad baja

29.374 usuarios

Bounce crítico (≈62,5%) y entregabilidad ≈9%. Convierte cuando interactúa, pero requiere limpieza inmediata.

Nivel de Engagement 49.57
Entregabilidad:9.2%
Open rate:66.6%
CTR:10.0%
% Compradores:12.0%
Día preferido:Martes
Ventana:09:00 - 24:00

Cluster 1: Compradores silenciosos

48.680 usuarios

Compran (≈69%) pero casi no usan email (87% sin interacción). Probable origen en otros canales.

Nivel de Engagement 30.44
Entregabilidad:81.7%
Open rate:13.9%
CTR:2.1%
% Compradores:68.9%
Día preferido:Viernes
Ventana:19:30 - 21:30

Cluster 2: Gran masa poco atenta

121.938 usuarios

El cluster más grande, entregabilidad casi perfecta (97%). Bajo engagement, pero convierten al interactuar.

Nivel de Engagement 33.13
Entregabilidad:97.4%
Open rate:22.8%
CTR:3.1%
% Compradores:70.2%
Día preferido:Martes
Ventana:17:00 - 21:00

Cluster 3: Engagers matutinos

5.598 usuarios

Alta interacción y conversión por email. Responden mejor a campañas matutinas.

Nivel de Engagement 65.77
Entregabilidad:90.1%
Open rate:92.3%
CTR:18.2%
% Compradores:65.6%
Día preferido:Jueves
Ventana:07:30 - 13:30

Cluster 4: Elite hiper-engaged

6.685 usuarios

El segmento VIP: 100% entregabilidad, open y click rates altísimos. Perfecto para campañas premium.

Nivel de Engagement 69.65
Entregabilidad:100%
Open rate:≈100%
CTR:32.0%
% Compradores:68.7%
Día preferido:Miércoles
Ventana:14:00 - 17:00

Plan de Acción por Cluster

Acciones recomendadas para cada segmento, priorizadas según su impacto en la entregabilidad, conversión y valor estratégico.

Cluster 0 — Limpieza inmediata

  • ✔ Validar correos (herramienta externa) y suprimir rebotes.
  • ✔ Ejecutar campaña de re-confirmación.
  • ✔ Pausar envíos masivos hasta limpiar lista.
  • 🎯 Objetivo: reducir rebotes >60% a <5%.

Cluster 1 — Compradores silenciosos

  • ✔ Integrar ventas offline/marketplace en CRM.
  • ✔ Reducir frecuencia de envíos masivos.
  • ✔ Detectar subgrupo activo (top openers/clickers).
  • 🎯 Objetivo: atribución correcta y ahorro en envíos.

Cluster 2 — Gran volumen

  • ✔ Mantener envíos periódicos (alta entregabilidad).
  • ✔ Subsegmentar por engagement: clickeadores, openers, inactivos.
  • ✔ Incentivar inactivos con cross-channel (SMS, redes).
  • 🎯 Objetivo: optimizar ROI por envío.

Cluster 3 — Engagers matutinos

  • ✔ Programar envíos en la mañana (07:30–13:30).
  • ✔ Contenido premium, lanzamientos y upsells.
  • ✔ Medir LTV y fidelizar con programas VIP.
  • 🎯 Objetivo: maximizar ROI de email.

Cluster 4 — Elite hiper-engaged

  • ✔ Tratar como VIP: early-access, bundles, cross-sell.
  • ✔ Personalizar al máximo (test creativos y pricing).
  • ✔ Medir ingresos y coste por envío.
  • 🎯 Objetivo: retención y aumento del ticket medio.

Performance General de la Campaña

Resumen integral de resultados globales y métricas de los clusters identificados.

Resumen de Campaña

  • Total Envíos

    797,751

  • Rebotes

    56,103 (7.0%)

  • Aperturas

    102,711 (12.9%)

  • Clics

    15,308 (1.9%)

Interacciones por Día de la Semana

Distribución de envíos, rebotes, aperturas, clics y compras según el día.

Tamaño de Clusters

Proporción de usuarios en cada cluster de segmentación.

Tasas de Conversión por Click

Mide qué porcentaje de clics resultó en una compra.

Tasas de Apertura y Clics (CTR)

Porcentaje de emails entregados que generaron apertura o clic.

Click-to-Open Rate (CTOR)

Proporción de clics sobre los emails que fueron abiertos.

Insights Clave

La campaña alcanzó casi 800 mil envíos con tasas de apertura del 12,9% y clics del 1,9%. Los miércoles y jueves concentran la mayor interacción. Los clusters 3 y 4 muestran un engagement sobresaliente y alto ROI por email, mientras que el Cluster 0 presenta problemas serios de entregabilidad que requieren limpieza inmediata.

¡Gracias!

Mel Zárate

Business & Data Strategy | UX-Driven Innovation | Cultural Branding | Python & Machine Learning