Definición: Kamber (2011), proceso de
descubrir conocimiento potencialmente útil
dentro de datos. Webmining (2011) resalta
que es un proceso que explora volúmenes
grandes de datos para determinar
relaciones. Extrae información de calidad
para dibujar conclusiones basadas en
relaciones o modelos.
Necesidades: Aumento de volumen y
variedad en información dentro de bases de
datos, así como distintas y nuevas fuentes
donde se encuentran los datos. Necesidad
importante por integrar el conocimiento
para toma de decisiones importantes y
complejas. Algunas áreas de aplicación:
Medicina
Marketing
Trafico
Etcétera
Procesos:
Fase 1- a)Determinar:
fuentes de datos útiles
b)Forma de obtención de
dichas fuentes
c)Homologar formato de
información (resolver
inconsistencias) y
d)Generar almacén de
datos
Fase 2- Eliminación y
corrección de datos
incorrectos o faltantes.
Determinar variables o
atributos relevantes para
la minería de datos.
Construcción de atributos.
Determinar muestras
estadísticas.
Fase 3- Generar nuevo
conocimiento a partir de
métodos y algoritmos y
extraer el conocimiento
de bases de datos.
Tenemos tres pasos:
Determinar las tareas,
determinar el método y
seleccionar el algoritmo.
Tipo de tareas: Predictivas
(Clasificación, Regresión) o
Descriptivas (Agrupamiento,
correlación, reglas asociación,
asociación secuencial)
Métodos- Nos permiten resolver tareas, algunos
importantes son: Inferencia, estadística, árboles de decisión,
redes neuronales, inducción de reglas, algoritmos genéticos,
basados en núcleos, aprendizaje bayesiano.
Fase 4- Evaluación de la calidad de lo
descubierto mediante distintos
criterios. La elección de la evaluación
del método dependerá de la técnica
elegida. Resaltamos dos actividades:
Evaluación de patrones y análisis de
expertos y evaluación y
entendimiento del contexto real en el
cual se usará el método.