lunes, 7 de junio de 2010

Data Mining

Como ya se ha comentado, las técnicas de Data Mining (una etapa dentro del proceso completo de KDD) intentan obtener patrones o modelos a partir de los datos recopilados. Decidir si los modelos obtenidos son útiles o no suele requerir una valoración subjetiva por parte del usuario. Los algoritmos de Data Mining suelen tener tres componentes:

El modelo, que contiene parámetros que han de fijarse a partir de los datos de entrada.
El criterio de preferencia, que sirve para comparar modelos alternativos.
El algoritmo de búsqueda (como cualquier otro programa de IA).
El criterio de preferencia suele ser algún tipo de heurística y los algoritmos de búsqueda empleados suelen ser los mismos que en otros programas de IA. Las principales diferencias entre los algoritmos de Data Mining se hallan en el modelo de representación escogido y la función del mismo (el objetivo perseguido).

Por ejemplo, un modelo de clasificación basado en árboles de decisión suele utilizar un algoritmo greedy (una búsqueda sin vuelta atrás) y una heurística que favorezca la construcción de árboles de decisión con pocos nodos.

Las herramientas de Data Mining empleados en el proceso de KDD se pueden clasificar en dos grandes grupos: técnicas de verificación (en las que el sistema se limita a comprobar hipótesis suministradas por el usuario) y métodos de descubrimiento (en los que se han de encontrar patrones potencialmente interesantes de forma automática, incluyendo en este grupo todas las técnicas de predicción).

El resultado obtenido con la aplicación de algoritmos de Data Mining (pertenecientes al segundo grupo, el de técnicas de descubrimiento) puede ser de carácter descriptivo o predictivo. Las predicciones nos sirven para prever el comportamiento futuro de algún tipo de entidad mientras que una descripción nos puede ayudar a su comprensión. De hecho, los modelos predictivos pueden ser descriptivos (hasta donde sean comprensibles por personas) y los modelos descriptivos pueden emplearse para realizar predicciones.

Algunos de los objetivos perseguidos al aplicar técnicas de Data Mining en grandes bases de datos son los siguientes:

Clasificación: Se trata de obtener un modelo que permita asignar un caso de clase desconocida a una clase concreta (seleccionada de un conjunto predefinido de clases).

Regresión: Se persigue la obtención de un modelo que permita predecir el valor numérico de alguna variable.

Clustering: Hace corresponder cada caso a una clase, con la peculiaridad de que las clases se obtienen directamente de los datos de entrada utilizando medidas de similaridad.

Resumen [summarization]: Se obtienen representaciones compactas para subconjuntos de los datos de entrada (vg: análisis interactivo de datos, generación automática de informes, visualización de datos...).

Modelado de dependencias: Se obtienen descripciones de dependencias existentes entre variables. El análisis de relaciones (vg. reglas de asociación), en el que se determinan relaciones existentes entre elementos de una base de datos, podría considerarse un caso particular de modelado de dependencias.

Análisis de secuencias: Se intenta modelar la evolución temporal de alguna variable, con fines descriptivos o predictivos.

No hay comentarios:



INTELIGENCIA ARTIFICIAL

Un agente como cualquier cosa capaz de percibir su entorno (recibir entradas), procesar tales percepciones y actuar en su entorno (proporcionar salidas), y entiéndase a la [racionalidad] como la característica que posee una elección de ser correcta, más específicamente, de tender a maximizar un resultado esperado (este concepto de racionalidad es más general y por ello más adecuado que inteligencia para definir la naturaleza del objetivo de esta disciplina).

Por lo tanto, y de manera más específica la inteligencia artificial es la disciplina que se encarga de construir procesos que al ser ejecutados sobre una arquitectura física producen acciones o resultados que maximizan una medida de rendimiento determinada, basándose en la secuencia de entradas percibidas y en el conocimiento almacenado en tal arquitectura.

Existen distintos tipos de conocimiento y medios de representación del conocimiento. El cual puede ser cargado en el agente por su diseñador o puede ser aprendido por el mismo agente utilizando técnicas de aprendizaje.

También se distinguen varios tipos de procesos válidos para obtener resultados racionales, que determinan el tipo de agente inteligente. De más simples a más complejos, los cinco principales tipos de procesos son:

Ejecución de una respuesta predeterminada por cada entrada (análogas a actos reflejos en seres vivos).
Búsqueda del estado requerido en el conjunto de los estados producidos por las acciones posibles.
Algoritmos genéticos (análogo al proceso de evolución de las cadenas de ADN).
Redes neuronales artificiales (análogo al funcionamiento físico del cerebro de animales y humanos).