Zusammenfassung der Ressource
Datamining y Datawarehousing
- “Un Data Warehouse es una colección de
datos orientada al negocio, integrada,
variante en el tiempo y no volátil para el
soporte del proceso de toma de decisiones
de la gerencia”.
- Concepto de Warehouse:
- Datos integrados Al integrarse por
medio del proceso de
transformación deben coincidir en
su estructura, medida y forma en
general.
- Variables en el tiempo: Pueden
manejar una línea de tiempo que
oscila aproximadamente entre cinco
y diez años, y dichos datos no pueden
ser alterados una vez alojados en el
DW.
- No volátil: La estabilidad,
persistencia de los datos y la
conservación en el tiempo es lo
que precisa la robustez del
Data Warehouse.
- Orientado al sujeto se refiere a
que los datos sean unidos y
organizados por las relaciones.
- El datamining (minería de datos), es el conjunto de técnicas
y tecnologías que permiten explorar grandes bases de
datos, de manera automática o semiautomática, con el
objetivo de encontrar patrones repetitivos, tendencias o
reglas que expliquen el comportamiento de los datos en un
determinado contexto.
- Datamart Un Datamart es una base de datos departamental, especializada en el almacenamiento de los
datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para
analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho
departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si
mismo un compendio de distintas fuentes de información.
- Ventajas:
• Campos
comparativos
• Origen común
• Procesamiento
distribuido
- Desventajas:
Tiempo largo de
desarrollo
- Planeación y administración del proyecto de data warehouse
- Planeación: Las decisiones tomadas durante la fase de planeación
tienen un impacto significativo en el ámbito de implementación y
en la magnitud del esfuerzo. Las decisiones clave de planeación
incluyen la selección de un enfoque de Io general a Io particular,
de abajo hacia arriba (en sentido opuesto) o combinado; la
selección de la arquitectura apropiada de Data Warehouse; la
selección adecuada del ámbito de información, fuentes de datos
y tamaño del metamodelo; y la estimación de planes de programa
y proyecto y justificaciones de presupuesto.
- Requerimientos: Durante la fase de requerimientos se debe
considerar una diversidad de ellos. Los requerimientos son
conducidos por el negocio y por la tecnología. La cuidadosa selección y
especificación de requerimientos en esta etapa proporciona un
proyecto cimentado que arroja resultados con rapidez.
- Análisis: La fase de análisis es importante ya que determina la forma
en que se cubrirán los requerimientos. Esta fase se enfoca
principalmente en la conversión de especificaciones de
requerimientos a especificaciones de metamodelo para el Data
Warehouse. Después, estas especificaciones se usan para generar
extractores del Data Warehouse y software de transformación,
integración, resumen y adición.
- Construcción: La fase de construcción resalta los
diversos intercambios “construir en comparación con
comprar”. Mediante la selección adecuada de
componentes suministrados por fabricantes, es posible
construir una primera implementación del Data
Warehouse rápida y eficaz.
- Despliegue: La fase de despliegue en el ciclo de
desarrollo del Data Warehouse tiene un componente
único denominado comercialización de información.
Esto reconoce que la mercancía que suministra el Data
Warehouse a sus usuarios finales (clientes) es la propia
información. Como un producto de mercancía, la
información también debe comercializarse como los
bienes de consumo. La comercialización comprende la
capacidad de hacer énfasis en la disponibilidad, los
beneficios y el empaque para hacerla atractiva al
usuario final.
- Modelo de implementación En esta etapa lleva
implícitos los siguientes pasos: • Extracción de los datos
del sistema operacional y transformación de los
mismos. • Carga de los datos validados en el Data
Warehouse. • Explotación del Data Warehouse
mediante diversas técnicas dependiendo del tipo de
aplicación que se dé a los datos.
- Técnicas Explotación dependiendo del tipo de aplicación
que se dé a los datos: El sistema de Extracción,
Transformación y Carga (ETL) es la base sobre la cual se
alimenta el Data warehouse. Explotación del Data
Warehouse mediante diversas técnicas dependiendo del
tipo de aplicación que se dé a los datos: • Query &
Reporting • On-line analytical processing (OLAP)
• Información de gestión Executive Information System
(EIS) ó • Decision Support Systems (DSS) • Visualización de
la información • Data Mining ó Minería de Datos, etc
- Modelado Dimensional
- Escoger el proceso de negocio Consiste en, elegir el
área a modelizar. Esta es una decisión de la dirección,
y depende fundamentalmente del análisis de
requerimientos y de los temas analíticos anotados en
la etapa anterior.
- Daclarar el "grain" El "grain" del modelo es la descripción exacta de lo que el modelo
dimensional debería concentrarse. Para aclarar lo que significa el "grain", se debe
escoger el proceso central y describirlo con una sola oración
- Identificar las dimensiones Las dimensiones son la base de la tabla de hechos, y es donde
se recogen los datos de la tabla de hechos. Normalmente las dimensiones son
sustantivos, como fecha, tienda, inventario, etc.
- Identificar los hechos Este paso es identificar los hechos numéricos que poblarán cada fila
de la tabla de hechos. Este paso está estrechamente relacionado con los usuarios de
negocio del sistema, ya que es donde consiguen el acceso a los datos almacenados en el
almacén de datos.