Los datos en un DW se modelan en data cubes
(“cubos de datos”), estructuras multidimensionales
(hipercubos) cuyas operaciones más comunes son:
Roll up
Drill down
Slice
Dice
Pivotaje o
rotación
Compuestos por:
Dimensiones
Miembros
Jerarquías
Hechos
Medidas
ESQUEMA Y
MODELAMIENTO
DE UNA BDM
BDM ¿?
BD de estructura basada en
dimensiones orientada a consultas
complejas y alto rendimiento
Se utilizan principalmente
para crear aplicaciones OLAP
Su peculiaridad es que por cada
dimensión tienen un campo (o columna),
y otro campo por cada métrica o hecho
Esquemas
Multidimensionales
ESQUEMA
ESTRELLA
Compuesta por una tabla
central - tabla de hechos. Y un
conjunto de tablas
organizadas alrededor de esta
- tablas de dimensiones.
Caracteriticas
El centro de la
estrella es la tabla
de hechos.
Los puntos de la estrella son
las tablas de dimensiones.
Cada esquema esta compuesto
por una sola tabla de hechos.
ESQUEMA
COPO DE
NIEVE
Variación del esquema estrella
donde alguna punta de la estrella
se explota en mas tablas.
las tablas de dimensión copo de
nieve se encuentran normalizadas
para eliminar redundancia de datos.
Caracteristicas
La dimensión esta normalizada.
Los distintos niveles se encuentran
almacenados en tablas separadas.
Se argumenta el ahorro de espacio.
ARQUITECTURA MODELO
MULTIDIMENSIONAL
Las fuentes de información pueden incluir bases de
datos relacionales, bases de conocimiento,
documentos en distintos formatos (p.ej. XML)
Los wrappers (encapsuladores) se encargan de
extraer los datos de las distintas fuentes y
transmitirlos al data warehouse.
Los monitores están en contacto directo con las
fuentes de datos para detectar los cambios que se
puedan producir en ellas.
El integrador es el responsable de filtrar, resumir
y unificar la información proveniente de las
distintas fuentes.
HYPERCUBO Y SUS OPERACIONES
Los cubos OLAP tienen un número
indefinido de dimensiones, razón por la
cual también reciben el nombre de
hipercubos
Un cubo OLAP contendrá datos de una
determinada variable que se desea
analizar, proporcionando una vista lógica
de los datos provistos por el sistema de
información hacia el data warehouse
Operaciones
Operacion de Corte y
corte de cubo
permite observar partes o
subconjuntos de cubos OLAP
Operaciones
Filtrar y Pivotear.
Filtrar permite realizar
una seleccion de los datos
dentro de un cubo
Pivotear nos permite
visualizar desde cierta
perspectiva del cubo
DEFINICION BDM
Almacena sus datos con varias
dimensiones, es decir que en vez de
un valor, encontramos varios
dependiendo de los "ejes" definidos.
La información se representa como
matrices multidimensionales
VENTAJAS BDM
Tiene acceso a grandes
cantidades de informacion
Analiza las relaciones
entre muchos tipos de
elementos empresariales
Involucra grandes datos
Compra datos agregados a
traves de periodos jerarquicos
Presentan los dtos en
diferentes perspectivas
Involucran calculos
complejos entre
elementos de datos
Pueden responder
rapidamente a los
usuarios
DESVENTAJAS BDM
Sus fallas reciden en la
imposibilidad de realizar
cambios en su estructura
CUBO MULTIDIMENCIONAL
Un cubo es una estructura
multidimensional que contiene
información con fines analíticos
sus componentes principales son
las dimensiones y las medidas.
Las dimensiones definen
la estructura del cubo que
se utiliza para segmentar y
dividir los datos
las medidas proporcionan valores
numéricos agregados importantes
para el usuario final.
DEFINICION DE OLAP
Procesamiento analítico en
línea. Solución utilizada en BI, el
objetivo es agilizar la consulta
de grandes cantidades de
datos.
Para ello utiliza los cubos OLAP que
contiene datos resumidos en grandes
BD o sist. transaccionales OLTP
HERRAMIENTAS OLAP
presentan al usuario una visión
multidimensional de los datos
(esquema multidimensional)
El usuario formula consultas
seleccionando atributos de este esquema
multidimensional sin conocer la
estructura interna, del almacén de datos
Estas herramientas genera la
correspondiente consulta y la envía al
gestor de consultas del sistema
Operadores de refinamiento
o manipulación de consultas.
DRILL
ROLL
SLICE & DICE
PIVOT
DEFINICION OLTP
Procesamiento de Transacciones En Línea. Tipo de
procesamiento que facilita y administra aplicaciones
transaccionales, usualmente para entrada de datos y
recuperación y procesamiento de transacciones.
CARACTERISTICAS DE UN DATA WAREHOUSE
Integrado: deben integrarse en una
estructura consistente, por lo que
las inconsistencias existentes entre
los diversos sistemas operacionales
deben ser eliminadas.
Temático: Los datos se organizan
por temas para facilitar su acceso
y entendimiento por parte de los
usuarios finales.
De tiempo variante (Historico):el tiempo es parte
implícita de la información contenida en un
datawarehouse. En los sistemas operacionales, los
datos siempre reflejan el estado de la actividad
del negocio en el momento presente.
No Volátil: El almacén de información de
un datawarehouse existe para ser leído,
pero no modificado.
Contiene metadatos:es decir, datos
sobre los datos. Los metadatos permiten
saber la procedencia de la información,
su periodicidad de refresco, su fiabilidad,
forma de cálculo... etc.
Extracción: obtención de
información de las distintas fuentes
tanto internas como externas.
Transformación: filtrado, limpieza, depuración,
homogeneización y agrupación de la información.
Carga: organización y
actualización de los datos y los
metadatos en la base de datos.
ROLAP
Procesamiento Analítico OnLine Relacional: Es una
implementación OLAP que almacena los datos en
un motor relacional. Diseñadas para realizar un
análisis de los datos a través de modelos de datos
multidimensionales, estos modelos no se
implementan sobre un sistema multidimensional,
sino son de un sistema relacional clásico.
MOLAP
Procesamiento Analítico Multidimensional OnLine: Es
una implementación de OLAP que almacena los datos
en una base de datos multinacional. MOLAP requiere un
procesamientos y almacenamiento de la información
contenida en un cubo. Almacena estos datos en una
matriz de almacenamiento multidimensional
optimizada, mas que en una base de datos relacional ( o
ROLAP)
COMPARACION
ENTRE MOLAP
Y ROLAP
DATA MINING
(minería de datos), es el conjunto de
técnicas y tecnologías que permiten
explorar grandes bases de datos.
surge para intentar ayudar a comprender
el contenido de un repositorio de datos.