lunes, 7 de junio de 2010

los pañales y la cerveza

En muchos cursos sobre minería de datos se cuenta una bonita historia sobre una gran cadena estadounidense de supermercados, Wal-Mart, que realizó a finales de los años 90 un análisis de los hábitos de compra de sus clientes.

Sorprendentemente, descubrieron una correlación estadísticamente significativa entre las compras de pañales y cerveza: los viernes por la tarde, los hombres entre 25 y 35 años que compraban cerveza también compraban pañales.

Después de un análisis detallado, este resultado se explica de forma bastante curiosa. Como los pañales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jóvenes entre 25 y 35 años (rango medio de edad para tener niños tan pequeños), solían ir a la compra los viernes, algo reticentes, en el último momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban pañales para sus bebés, aprovechaban para comprar cerveza, ya que no podrían salir a tomarlas al pub.


También se cuenta que Wal-Mart utilizó este resultado para reubicar estos productos en lugares estratégicamente dispuestos: pusieron la cerveza cerca de los pañales. El resultado fue que los padres que habitualmente compraban cerveza después compraron todavía más, al estar tan cómodamente situada. Además, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los pañales. Así, las ventas de cerveza tuvieron un aumento espectacular.

Este es un buen ejemplo de los beneficios que puede aportar la Minería de Datos y, en particular, el análisis de la cesta de la compra (market basket analysis) (*ver abajo).

El problema es que esta historia existe en diferentes versiones, a veces se habla de 7 Eleven en vez de Wal-Mart, otras veces se adorna con datos específicos de porcentajes de incremento de ventas... Además no se conoce quiénes pudieron realizar esos estudios y, de hecho, no existe documentación específica de ningún proyecto en esta línea en ninguna de las dos organizaciones.

Por todo ello, no hay más remedio que pensar que se trata de una leyenda urbana, un bonito mito del mundo de la minería de datos.

•Beer and Nappies - A Data Mining Urban Legend
•Data Mining – If Only It Really Were about Beer and Diapers

Ejemplo ilustrado del análisis de la cesta de la compra
Supongamos el siguiente ejemplo:


800.000 clientes
40.000 compraron pañales (5%)
60.000 compraron cerveza (7,5%)
16.000 compraron pañales y cerveza (2%)

El soporte es el porcentaje del total de transacciones que incluyen un determinado producto. En este ejemplo, la compra de pañales tiene un soporte del 5%.

La confianza mide hasta qué punto un producto depende del otro:

16.000 de los 40.000 clientes que compraron pañales también compraron cerveza (40%)

Por tanto, la regla de asociación pañales>cerveza tendría un soporte del 5% y una confianza del 40%. También se puede leer de otra forma:

el 5% de los clientes compraron pañales; de ellos, el 40% además compraron cerveza

Las compras de pañales son el antecedente de la regla (la parte izquierda) y las de cerveza, el consecuente (la parte derecha).

Los valores del 5% y 7,5% de compras respectivamente con pañales y con cerveza se denominan confianza esperada: proporción de compras que incluyen un determinado producto, independientemente de los demás.

Por último, el lift (habitualmente sin traducción al español, aunque sería algo parecido a mejora) mide la proporción entre la confianza de una regla y la confianza esperada para el producto consecuente. En el ejemplo, la confianza de la regla pañales>cerveza es un 40%, y la confianza esperada de que un cliente cualquiera compre cerveza es un 7,5%, por tanto, el lift es 5,33 (40/7,5):

los clientes que compran pañales son 5,33 veces más propensos a comprar cerveza (que quienes no los compran)


El objetivo del análisis de la cesta de la compra es encontrar asociaciones con un lift lo más elevado posible, para maximizar el posible beneficio. Por supuesto, este mismo análisis se puede extender a asociaciones de tres o más productos.

El algoritmo empleado habitualmente para encontrar las reglas de asociación se denomina apriori [Rakesh Agrawal y Ramakrishnan Srikant, Fast Algorithms for Mining Association Rules, Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), 2004].

No hay comentarios:



INTELIGENCIA ARTIFICIAL

Un agente como cualquier cosa capaz de percibir su entorno (recibir entradas), procesar tales percepciones y actuar en su entorno (proporcionar salidas), y entiéndase a la [racionalidad] como la característica que posee una elección de ser correcta, más específicamente, de tender a maximizar un resultado esperado (este concepto de racionalidad es más general y por ello más adecuado que inteligencia para definir la naturaleza del objetivo de esta disciplina).

Por lo tanto, y de manera más específica la inteligencia artificial es la disciplina que se encarga de construir procesos que al ser ejecutados sobre una arquitectura física producen acciones o resultados que maximizan una medida de rendimiento determinada, basándose en la secuencia de entradas percibidas y en el conocimiento almacenado en tal arquitectura.

Existen distintos tipos de conocimiento y medios de representación del conocimiento. El cual puede ser cargado en el agente por su diseñador o puede ser aprendido por el mismo agente utilizando técnicas de aprendizaje.

También se distinguen varios tipos de procesos válidos para obtener resultados racionales, que determinan el tipo de agente inteligente. De más simples a más complejos, los cinco principales tipos de procesos son:

Ejecución de una respuesta predeterminada por cada entrada (análogas a actos reflejos en seres vivos).
Búsqueda del estado requerido en el conjunto de los estados producidos por las acciones posibles.
Algoritmos genéticos (análogo al proceso de evolución de las cadenas de ADN).
Redes neuronales artificiales (análogo al funcionamiento físico del cerebro de animales y humanos).