La minería de datos es el proceso de detectar la información procesable de los
conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y
tendencias que existen en los datos. Normalmente, estos patrones no se pueden
detectar mediante la exploración tradicional de los datos porque las relaciones son
demasiado complejas o porque hay demasiado datos.
Aplicaciones.
Aplicación Científica
Predecir si un compuesto
químico causa cáncer o
Predecir si una persona
puede tener
potencialmente una
enfermedad a partir de
su ADN.
Toma de Decisiones.
Ejemplos: banca,
finanzas, seguros,
marketing, políticas
sanitarias o
demográficas.
Procesos Industriales. • Investigación
Científica Ejemplos: medicina,
epidemiología, bioinformática,
psicología. • Soporte al Diseño de
Bases de Datos. • Mejora de Calidad de
Datos. • Mejora en el área de empresas
de Consulting
Metodologías de mineria de datos
Métodos basados en: •
Tecnología de Bases de
Datos • Estadística •
Aprendizaje automático •
Cómputo de alto
rendimiento •
Reconocimiento de
patrones • Redes
Neuronales • Visualización
de Datos • Recuperación de
Información •
Procesamiento de imágenes
y señales • Análisis de Datos
Espaciale
Metodología CRISP-DM.El estándar incluye un modelo y una
guía, estructurados en seis fases, algunas de estas fases son
bidireccionales, lo que significa que algunas fases permitirán
revisar parcial o totalmente las fases anteriores.
Metodología SEMMA. Es una metodologia
mas corta y menos extensa e centra mas en
el desarrollo del proceso de Mineria de datos
y no se orienta a objetivos empresariales.
Tiene 5 fases cada uno representando a sus
siglas SEMMA: Sample, Explore, Modify,
Model, Assess
La metodología DMAIC es la que se
utiliza para llevar a cabo los proyectos
Six Sigma de optimización de
procesos. Esta metodología consta de
cinco fases: D – Definir (Define) M –
Medir (Measure) A – Analizar (Analyse)
I – Mejorar (Improve) C – Controlar
(Control). En cada una de estas fases,
se utilizan unas herramientas de
calidad y técnicas estadísticas para
avanzar en el proyecto basando las
acciones en hechos y datos
correctamente muestreados,
medidos, analizados, etc….