martes, 8 de junio de 2010

Uso en Telecomunicaciones e Informática

En redes de comunicación, una red ad hoc es aquella (especialmente inalámbrica) en la que no hay un nodo central, sino que todos los dispositivos están en igualdad de condiciones. Ad hoc es el modo más sencillo para el armado de una red. Sólo se necesita contar con 2 placas o tarjetas de red inalámbricas (de la misma tecnología). Una vez instaladas en los PC se utiliza el software de configuración del fabricante para configurarlas en el modo ad-hoc, definiendo el identificador común que utilizarán (SSID). Este modo es recomendable sólo en caso de que necesitemos una comunicación entre no más de dos dispositivos. Son por ejemplo redes ad hoc las que se crean de forma espontánea, sin una infraestructura específica y funcionando en un espacio y tiempo limitados.

El término también se utiliza en informática para referirse a consultas en bases de datos ad hoc querying o ad hoc reporting. Esto implica que el sistema permite al usuario personalizar una consulta en tiempo real, en vez de estar atado a las consultas prediseñadas para informes. Generalmente las consultas ad hoc permiten a los usuarios con poca experiencia en SQL tener el mismo acceso a la información de la base de datos, para esto los sistemas que soportan ad hoc poseen GUIs para generarlas.

Uso en Derecho

Como término jurídico ad hoc puede ser interpretado como "para fin específico". Por ejemplo, un "abogado ad hoc" significa que es un abogado nombrado o designado para ese caso concreto. Por el mismo motivo, una norma ad hoc o un contrato ad hoc sería aquel o aquella que han sido elaborados para una situación concreta, y que tendrán poca o nula aplicabilidad más allá de esa situación.

De igual manera es utlizado para los domicilios de los abogados, cuando pertenecen a otra jurisdicción y deben de elegir un domicilio ad hoc en la jurisdicción donde se encuentra ventilando un caso, razón para la cual eligen el domicilio ad hoc para ese caso en especifico.

Uso en Lógica

Una hipótesis ad hoc es una hipótesis concreta creada para explicar un hecho que contradice una teoría.

Algunas hipótesis no son suficientes por sí solas y requieren que se las ponga en conjunción con otras, que tienen un carácter instrumental o auxiliar, y a las que se denomina hipótesis auxiliares. Estas hipótesis cumplen el papel de premisas adicionales, y se supone que deben cumplir dos requisitos que son :

1.Ser falsables.
2.Ser contrastadas con anterioridad o con independencia de las hipótesis fundamentales.
De no cumplirse estos requisitos, se dirá que se trata de una hipótesis ad hoc. O en otras palabras, es un enunciado irrefutable destinado a "blindar" a la hipótesis principal para salvarla de la falsación.

La falacia ad hoc es aquella que sentencia: "Porque A sucedió antes que B, no significa que necesariamente A causó B". Se la llama "ad hoc" por la incorrecta suposición de que A está vinculado exclusivamente a B.

Ad hoc

Ad hoc es una locución latina que significa literalmente «para esto». Generalmente se refiere a una solución elaborada específicamente para un problema o fin preciso y, por tanto, no es generalizable ni utilizable para otros propósitos. Se usa pues para referirse a algo que es adecuado sólo para un determinado fin. En sentido amplio, ad hoc puede traducirse como «específico» o «específicamente».

lunes, 7 de junio de 2010

Tipos de problemas de minería de datos

2.Tipos de problemas de minería de datos

Por lo general, los proyectos de minería de datos implican una combinación de diferentes tipos de problema, que juntos solucionan el problema de negocio.

1.Descripción de datos y resumen

La descripción y el resumen de datos apuntan a la descripción concisa de las características de los datos, típicamente en forma elemental y agregada. Esto da al usuario una descripción de la estructura de los datos. A veces, una descripción y resumen de los datos solo puede ser un objetivo de un proyecto de minería de datos. Por ejemplo, un minorista podría estar interesado en el volumen de ventas de todas las salidas separado por categorías. Los cambios y diferencias de un período anterior podrían ser resumidos y destacados. Esta clase de problema estaría en lo mas bajo de la escala de problemas de minería de datos.

En casi todos los proyectos de minería de datos, sin embargo, la descripción y resumen de los datos son un objetivo subordinado en el proceso, típicamente en sus tempranas etapas. En el principio de un proceso de minería de datos, el usuario a menudo no conoce, ni el objetivo preciso del análisis, ni la naturaleza exacta de los datos. La exploración inicial del análisis de datos puede ayudar a los usuarios a entender la naturaleza de los datos y formar hipótesis potenciales de la información oculta. La estadística descriptiva simple y las técnicas de visualización proporcionan las primeras ideas sobre los datos. Por ejemplo, la distribución de clientes por edad y regiones geográficas sugiere que partes de un grupo de clientes necesita para ser dirigida para futuras estrategias de comercialización (marketing).

La descripción y el resumen de datos típicamente ocurren en combinación con otros tipos de problemas de minería de datos. Por ejemplo, la descripción de datos puede conducir a la postulación (presunción) de segmentos interesantes en los datos. Una vez que los segmentos son identificados y definidos, una descripción y un resumen de estos segmentos son útiles. Es aconsejable llevar a cabo una descripción y resumen de datos antes de que cualquier otro tipo de problema de minería de dato sea especificado (dirigido). En este documento, esto esta reflejado en el hecho que la descripción y resumen de datos es una tarea en la fase de comprensión de datos.

El resumen también juega un papel importante en la presentación de los resultados finales. Los resultados de otros tipos de problemas de minería de datos (por ejemplo, las descripciones de conceptos o los modelos de predicción) también pueden ser considerados resumen de datos, pero sobre un nivel conceptual más alto.

Muchos sistemas de informe, paquetes estadísticos, OLAP, y sistemas EIS pueden cubrir la descripción y resumen de datos, pero hacerlo usualmente no proporciona algunos métodos para realizar modelado más avanzado. Si la descripción y resumen de datos son considerados un tipo de problema independiente y ningún modelado futuro es requerido, entonces estas herramientas pueden ser apropiadas para realizar los compromisos de minería de datos.

2.Segmentación

La segmentación apunta a la separación de los datos en subgrupos o clase significativos e interesantes. Todos los miembros de un subgrupo comparten características comunes. Por ejemplo, en el análisis de cesta de compras, uno podría definir los segmentos de cestas según los artículos que ellos contienen.

La segmentación puede ser realizada a mano o semi-automáticamente. El analista puede suponer ciertos subgrupos como relevantes para la pregunta de negocio, basada sobre un conocimiento previo o sobre el resultado de la descripción y el resumen de datos. En adición, hay también técnicas automáticas de agrupamiento (clustering) que pueden descubrir las estructuras antes insospechadas y ocultas en datos que permite la segmentación.

La segmentación a veces puede ser un objetivo de minería de datos. Entonces la detección de segmentos sería el objetivo principal de un proyecto de minería de datos. Por ejemplo, todas las direcciones en áreas de código postal con la edad mas alta que el promedio y un ingreso podrían ser seleccionadas para enviar publicidad para seguro de clínica de ancianos.

Muy a menudo, sin embargo, la segmentación es un paso hacia la solución de otros tipos de problema. Entonces, el objetivo es de guardar (mantener) el tamaño de los datos manejables o encontrar los subconjuntos de datos homogéneos que son más fáciles para analizar. Típicamente en grandes conjuntos de datos variados afectan el alcance de cada uno y obscurece los patrones interesantes. Entonces, la segmentación apropiada hace la tarea más fácil. Por ejemplo, analizar las dependencias entre artículos en millones de cestas de compras es muy difícil. Esto es mucho más fácil (y más significativo, generalmente) para identificar dependencias en los segmentos interesantes de cestas de compras -por ejemplo, cestas de alto valor, cestas que contienen bienes de confort, o cestas de un día o de un periodo particular.

Nota: En la literatura, hay algo de ambigüedad en el significado de ciertos términos. A veces llaman a la segmentación agrupamiento (clustering) o clasificación (classification). El último término es confuso porque algunas personas lo usan para referirse a la creación de clases, mientras que otros piensan en la creación de modelos para predecir las clases conocidas para casos antes no vistos. En este documento, restringimos el término de clasificación al último significado (vea abajo) y usar el término segmentación con el antiguo significado, aunque las técnicas de clasificación puedan ser usadas para obtener descripciones de los segmentos descubiertos.

Técnicas apropiadas:

•Técnicas de agrupamiento (clustering)

•Redes Neuronales

•Visualización

Ejemplo:

Una empresa de venta de autos con regularidad recoge información sobre sus clientes acerca de sus características socioeconómicas como el ingreso, la edad, el sexo, la profesión, etc. Usando análisis de agrupamiento, la empresa puede dividir a sus clientes en subgrupos más comprensibles y analizar la estructura de cada subgrupo. Estrategias de control de comercialización (marketing) específicas son desarrolladas para cada grupo separado.

3.Descripciones de concepto

La descripción de concepto apunta a una descripción comprensible de conceptos o clases. El objetivo no es para completar el desarrollo de modelos con predicción de exactitud alta, sino para ganar ideas. Por ejemplo, una empresa puede estar interesada en el estudio sobre sus clientes más leales y desleales. De una descripción de concepto de estos conceptos (clientes leales y desleales) la compañía infiere que podría estar hecho para encontrar clientes leales o transformar clientes desleales a clientes leales.

Una descripción de concepto tiene una conexión cercana tanto a la segmentación como a la clasificación. La segmentación puede conducir a una enumeración de objetos que pertenecen a un concepto o clase sin proporcionar cualquier descripción comprensible. Típicamente la segmentación es llevada a cabo antes de que la descripción de concepto sea realizada. Algunas técnicas -técnicas de agrupamiento conceptuales, por ejemplo -ejecutan la segmentación y descripción de concepto al mismo tiempo.

Las descripciones de concepto también pueden ser usadas para objetivos de clasificación. Por otra parte, algunas técnicas de clasificación producen modelos de clasificación comprensibles, que pueden entonces ser consideradas descripciones de concepto. La distinción importante es que la clasificación apunta a ser completa en algún sentido. El modelo de clasificación tiene que aplicarse a todos los casos en la población seleccionada.

De otra manera, las descripciones de concepto no tienen que ser completas. Es suficiente si ellos describen las partes importantes de los conceptos o clases. En el ejemplo mencionado, puede ser suficiente conseguir las descripciones de conceptos de aquellos clientes que son claramente leales.

Técnicas apropiadas:

•Métodos de inducción de reglas

•Agrupamiento conceptual

Ejemplo:

Usando datos sobre los compradores de coches nuevos y una técnica de inducción de regla, una empresa de coche podría generar las reglas que describen sus clientes leales y desleales. Debajo son los ejemplos de las reglas generadas:

Si SEXO = macho y EDAD > 51 entonces CLIENTE = leal

Si SEXO = hembra y EDAD > 21 entonces CLIENTE = leal

Si PROFESIÓN = gerente y EDAD < 51 entonces CLIENTE = desleal

Si ESTADO CIVIL = soltero y EDAD < 51 entonces CLIENTE = desleal

4.Clasificación

La clasificación asume que hay un conjunto de objetos caracterizados por algún atributo o rasgo que pertenece a diferentes clases. La etiqueta de clase es un valor (simbólico) discreto y es conocido para cada objeto. El objetivo es para construir los modelos de clasificación (a veces llamados clasificadores), que asigna la etiqueta de clase correcta a objetos antes no vistos y sin etiquetas.

Los modelos de clasificación sobre todo son usados para el modelado predictivo.

Las etiquetas de clase pueden ser presentadas en el avance -definida por el usuario, por ejemplo, o derivadas de la segmentación. La clasificación es uno de los tipos de problemas más importantes de minería de datos que ocurren en una amplia gama de aplicaciones. Muchos problemas de minería de datos pueden ser transformados a problemas de clasificación. Por ejemplo, intentando guardar créditos para evaluar el riesgo de acreditar a un cliente nuevo. Esto puede ser transformado a un problema de clasificación para crear dos clases, clientes buenos y clientes malos. Un modelo de clasificación puede ser generado de los datos de cliente existentes de acuerdo a su comportamiento crediticio. Este modelo de clasificación puede entonces ser usado para asignar a clientes nuevos a una de las dos clases y aceptarlo o rechazarlo.

La clasificación tiene conexiones a casi todos los otros tipos de problemas. Los problemas de predicción pueden ser transformados a los problemas de clasificación por discretización de etiquetas de clase continuas, porque las técnicas de discretización permiten transformar rangos continuos en intervalos discretos. Estos intervalos discretos, más que los valores numéricos exactos, son usados como etiquetas de clase, y de ahí conducen a un problema de clasificación. Algunas técnicas de clasificación producen una clase comprensible o descripciones de concepto. Hay también una conexión al análisis de dependencia porque los modelos de clasificación típicamente usan (explotan) y aclaran las dependencias entre atributos.

La segmentación puede también proporcionar las etiquetas de clase o restringir el conjunto de datos para que buenos modelos de clasificación puedan ser construidos. Es útil analizar desviaciones antes de que un modelo de clasificación sea construido. Las desviaciones y contingencias (cosas fuera de lugar-outliers) pueden obscurecer el patrón que podría permitir un buen modelo de clasificación. De otro modo, un modelo de clasificación también puede ser usado para identificar desviaciones y otros problemas con los datos.

Técnicas apropiadas:

•Análisis de discriminante

•Métodos de inducción de regla

•Aprendizaje por árboles de Decisión

•Redes neuronales

•La K más cercana

•Razonamiento basado en caso

•Algoritmos genéticos

Ejemplo:

Los bancos generalmente tienen información sobre el comportamiento de pago de sus aspirantes de crédito. Combinando esta información financiera con otra información sobre los clientes, como el sexo, la edad, el ingreso, etc., es posible desarrollar un sistema para clasificar a clientes nuevos como clientes buenos o malos (esto es, el riesgo de crédito en la aceptación de un cliente es alto o bajo).

5.Predicción

Otro tipo de problema importante que ocurre en una amplia gama de usos es la predicción. La predicción es muy similar a la clasificación.

La única diferencia es que en la predicción el atributo objetivo (la clase) no es un atributo cualitativo discreto, pero es uno continuo.

El objetivo de la predicción esta en encontrar el valor numérico del atributo objetivo para objetos no vistos. En la literatura, este tipo de problema es a veces llamado regresión. Si la predicción trata con datos de serie tiempo, entonces a menudo lo llaman pronosticación.

Técnicas apropiadas:

•Análisis de regresión

•Árboles de regresión

•Redes neuronales

•La K más cercana

•Métodos de la Caja-Jenkins

•Algoritmos genéticos

Ejemplo:

El rédito anual de una empresa internacional esta correlacionado con otros atributos como la promoción, la tasa de cambio, la tasa de inflación, etc. Teniendo estos valores (o estimaciones confiables), la empresa puede predecir su rédito esperado durante el próximo año.

6.Análisis de dependencia

El análisis de dependencia consiste en encontrar un modelo que describe dependencias significativas (o asociaciones) entre artículos de datos o acontecimientos. Las dependencias pueden ser usadas para predecir el valor de unos datos de artículo dada la información sobre otros artículos de datos. Aunque las dependencias pueden ser usadas para el modelado predictivo, aquellos son mas usados por su comprensión. Las dependencias pueden ser estrictas o probabilísticas.

Las asociaciones son un caso especial de dependencias, que recientemente se han hecho muy populares. Las asociaciones describen las afinidades de artículos de datos (esto es, artículos de datos o los acontecimientos que con frecuencia ocurren juntos). Un típico escenario de aplicación para asociaciones es el análisis de cestas que hacen compras. Allí, una regla como “en el 30 por ciento de todas las compras, la cerveza y cacahuetes han sido comprados juntos” es un ejemplo típico para una asociación.

Los algoritmos para detectar asociaciones son muy rápidos y producen muchas asociaciones. Seleccionar el más interesante es un desafío.

El análisis de dependencia tiene conexiones cercanas a la predicción y a la clasificación, ya que las dependencias implícitamente son usadas para la formulación de modelos predictivos. Hay también una conexión a descripciones de concepto, que a menudo destacan dependencias.

En aplicaciones, el análisis de dependencia a menudo co-ocurre con la segmentación. En grandes conjunto de datos, las dependencias son raras veces significativas porque muchas influencias cubren el uno al otro. En tales casos, es aconsejable realizar un análisis de dependencia sobre más segmentos homogéneos de datos.

El modelo secuencial es una clase especial de dependencia en las que el orden de acontecimientos es considerado. En un análisis de cesta de compras, las asociaciones describen dependencias entre artículos en un tiempo dado. El patrón secuencial describe el modelo que hace compras de un cliente particular o un grupo de clientes en el tiempo.

Técnicas Apropiadas:

•Análisis de correlación

•Análisis de regresión

•Reglas de asociación

•Redes bayesianas

•Programación de lógica inductiva

•Técnicas de visualización

Ejemplo 1:

Usando el análisis de regresión, un analista de negocio ha encontrado que hay dependencias significativas entre las ventas totales de un producto y tanto en su precio como en la cantidad de gastos de publicidad. Este conocimiento permite al negocio alcanzar el nivel deseado de las ventas por cambio del precio del producto y/o el gasto de publicidad.

Ejemplo 2:

Aplicando algoritmos de regla de asociación a datos sobre accesorios de coche, una empresa de coches ha encontrado que en el 95 por ciento de casos, si un CD player es ordenado, una transmisión automática es ordenada también. Basado en esta dependencia, la empresa de coche decide ofrecer estos accesorios como un paquete, que conduce a la reducción del costo.

Glosario/Terminología

Actividad – Es parte de una tarea en la Guía de Usuario; describe las acciones para realizar una tarea

Metodología de CRISP-DM - El término general para todos los conceptos desarrollados y definidos en el CRISP-DM

Contexto de minería de datos - Un conjunto de restricciones y presunciones, tales como el tipo de problema, las técnicas o herramientas, el dominio de aplicación

Tipos de problemas de minería de datos - Una clase de típicos problemas de minería de datos, tales como la descripción de datos y el resumen, la segmentación, las descripciones de conceptos, la clasificación, la predicción, el análisis de dependencia

Genérico - Una tarea que mantiene un cruce con todos los proyectos de minería de datos posibles

Modelo - La capacidad de aplicar algoritmos a un conjunto de datos para predecir atributos objetivos; ejecutable

Salida - El resultado tangible de la ejecución de una tarea

Fase - Un término para la parte de alto nivel del modelo de proceso CRISP-DM; consiste en tareas relacionadas

Caso del proceso - Un proyecto específico descrito en términos del modelo de proceso

Modelo de proceso - Define la estructura de proyectos de minería de datos y proporciona la guía para su ejecución; consiste en el modelo de referencia y en la guía de usuario

Modelo de referencia - Descomposición de proyectos de minería de datos en fases, tareas, y salidas

Especializado - Una tarea que hace presunciones específicas en contextos específicos de minería de datos

Tarea - Una serie de actividades para producir una o más salidas; parte de una fase

Guía de usuario - Asesoramiento específico sobre como realizar proyectos de minería de datos

DESARROLLO

1.Desarrollo del plan

Tarea Desarrollar el plan

De acuerdo al desarrollo de los resultados de minería de datos en el negocio, esta tarea toma los resultados de la evaluación y determina una estrategia para el desarrollo. Si un procedimiento general ha sido identificado para crear el/los modelo/s relevante/s, este procedimiento es documentado aquí para el desarrollo posterior.

Salida Desarrollo del plan

Resumir la estrategia de desarrollo, incluyendo los pasos necesarios y como realizarlos.

2.Plan de supervisión y mantenimiento

Tarea Planear la supervisión y el mantenimiento

La supervisión y el mantenimiento son cuestiones importantes si los resultados de minería de datos son parte del negocio cotidiano y de su ambiente. La preparación cuidadosa de una estrategia de mantenimiento ayuda evitar largos periodos innecesarios de uso incorrecto de resultados de minería de datos. Para supervisar el desarrollo de los resultados de la minería de datos, el proyecto necesita un plan detallado de proceso de supervisión. Este plan tiene en cuenta el tipo específico de desarrollo.

Salida Supervisión y plan de mantenimiento

Resumir la estrategia de supervisión y mantenimiento incluyendo los pasos necesarios y como realizarlos.

3.Informe definitivo de producto

Tarea Producir el informe final

En el final del proyecto, el líder del proyecto y su equipo sobrescribe un informe final. Según el plan de desarrollo, este informe puede ser sólo un resumen del proyecto y sus experiencias (si estas aún no han sido documentadas como una actividad en curso) o esto puede ser una presentación final y comprensiva de los resultados de minería de datos.

Salidas Informe definitivo

Esto es el informe escrito final del compromiso de la minería de datos. Esto incluye todo el desarrollo anterior, el resumen y la organización de los resultados.

Presentación final

También a menudo habrá una reunión en la conclusión del proyecto en el que los resultados son presentados verbalmente al cliente.

4.Revisión del proyecto

Tarea Revisar el proyecto

Evaluar lo que fue correcto y lo que se equivocó, lo que fue bien hecho y lo que necesita para ser mejorado.

Salida Documentación de la experiencia

Resumir las experiencias importantes ganadas durante el proyecto. Por ejemplo, trampas, accesos engañosos, o las insinuaciones para seleccionar las mejores técnicas de minería de datos en situaciones similares podrían ser la parte de esta documentación. En proyectos ideales, la documentación de la experiencia también cubre cualquier informe que ha sido escrito por miembros individuales del proyecto durante las fases del proyecto y sus tareas.


INTELIGENCIA ARTIFICIAL

Un agente como cualquier cosa capaz de percibir su entorno (recibir entradas), procesar tales percepciones y actuar en su entorno (proporcionar salidas), y entiéndase a la [racionalidad] como la característica que posee una elección de ser correcta, más específicamente, de tender a maximizar un resultado esperado (este concepto de racionalidad es más general y por ello más adecuado que inteligencia para definir la naturaleza del objetivo de esta disciplina).

Por lo tanto, y de manera más específica la inteligencia artificial es la disciplina que se encarga de construir procesos que al ser ejecutados sobre una arquitectura física producen acciones o resultados que maximizan una medida de rendimiento determinada, basándose en la secuencia de entradas percibidas y en el conocimiento almacenado en tal arquitectura.

Existen distintos tipos de conocimiento y medios de representación del conocimiento. El cual puede ser cargado en el agente por su diseñador o puede ser aprendido por el mismo agente utilizando técnicas de aprendizaje.

También se distinguen varios tipos de procesos válidos para obtener resultados racionales, que determinan el tipo de agente inteligente. De más simples a más complejos, los cinco principales tipos de procesos son:

Ejecución de una respuesta predeterminada por cada entrada (análogas a actos reflejos en seres vivos).
Búsqueda del estado requerido en el conjunto de los estados producidos por las acciones posibles.
Algoritmos genéticos (análogo al proceso de evolución de las cadenas de ADN).
Redes neuronales artificiales (análogo al funcionamiento físico del cerebro de animales y humanos).