El análisis técnico de los datos para
describir su contenido, consistencia y
estructura. En cierto sentido, cada
vez que se realiza una consulta de
investigación SELECT DISTINCT, se
está haciendo Data Profiling.
Subsistema 2 - Change Data Capture
Consiste en
Transferir sólo la información que
ha cambiado desde la última
carga
Hay varias formas para captar los
cambios en la fuente de datos
Algunas formas son
Auditar columnas
Medir los cambios en los
tiempos de extracción
Comparación completa -
Registro por registro
Revisar logs de la base de datos
Monitorear la cola de mensajes del
Sistema de Transacciones Basados en
Mensajes
Subsistema 3 - Extract System
Consiste en
Extraer la información desde la
fuente de origen hasta la fuente
de destino.
Hay dos métodos principales
Extraer los datos en
archivos. Como en
formato XML por
ejemplo.
Extraerlos en un flujo
de información: stream.
Limpieza y Conformación
Se depuran la
información
para garantizar
una mejor
Calidad de
Datos
Subsistema 4 - Data Cleansing System
Consiste en
Implementar procesos
que permitan detectar
inconsistencias en los
datos.
Son
importantes
las
Pantallas de Calidad -
Quality Screens
Son el corazón de la
arquitectura ETL por cuanto
actúan como filtros de
diagnóstico en el flujo de datos
Subsistema 5 - Error Event Schema
Consiste en
Mantener un esquema para el manejo de
eventos de error cuyo propósito es
registrar cada evento de error lanzado por
una pantalla de calidad en cualquier parte
del proceso de ETL.
Subsistema 6 - Audit Dimension Assembler
Consiste en
Crear metadatos
asociados a cada tabla
para validar la evolución de
la Calidad de los Datos
Subsistema 7 - Deduplication
Consiste en
Eliminar información redundante
de tablas importantes como
cliente o producto.
Implica
Cruzar múltiples tablas en
múltiples sistemas de
información para detectar
un patrón que permita
identificar cuando un
registro está duplicado.
Subsistema 8 - Conforming
Consiste en
Identificar elementos equivalentes
que permiten compartir información
entre tablas relacionadas.
Entrega
Se prepara la
información
para su
posterior
entrega
Implementar la lógica para crear
atributos de variabilidad lenta a lo
largo del tiempo. El sistema ETL debe
determinar cómo manejar el valor de
un atributo de dimensión que ha
cambiado desde el valor ya
almacenado en la DW.
Tipos de acciones a tomar
Tipo 1: Sobrescribir
Tipo 2: Crear un nuevo registro
Tipo 3: Agregar una nueva columna
Híbrido: Combinación de tipos
Subsistema 10 - Surrogate Key Generator
Consiste en
Crear claves subrogadas
independientes para cada tabla
Subsistema 11 - Hierarchy Manager
Consiste en
Hacer inserciones en estructuras
jerárquicas de tablas.
Subsistema 12 - Special Dimensions Manager
Consiste en
Crear dimensiones especiales
Tales como
Date/Time
Junk
Mini-dimensions
Shrunken
Small static
User maintained
Subsistema 13 - Fact Table Builders
Consiste en
Crear Tablas de Hecho las
cuales conservan mediciones
importantes para la
organización
Tipos de Tablas de Hecho
Transaction Grain Fact Table (Loader)
Periodic Snapshot Fact Table (Loader)
Accumulating Snapshot Fact Table Loader
Subsistema 14 - Surrogate Key Pipeline
Consiste en
Incluir un paso para reemplazar las claves
operacionales por las claves subrogadas.
Construir tablas puente para soportar
las relaciones de Muchos a Muchos.
Subsistema 16 - Late Arriving Data Handler
Consiste en
Permitir aplicar cambios a los procesos
en caso de que los datos tarden en llegar.
Subsistema 17 - Dimension Manager System
Consiste en
Preparar y publicar dimensiones
conformadas al equipo de DW
Una dimensión conformada
Es por necesidad un recurso
gestionado de forma
centralizada; cada dimensión
conformada debe tener una
única fuente y esta debe ser
consistente.
Subsistema 18 - Fact Provider System
Consiste en
El proveedor de Tablas de hecho es responsable de una o
más Tablas de hecho, de su creación, mantenimiento y uso.
Subsistema 19 - Aggregate Builder
Consiste en
Gestionar las agregadas ya que pueden
afectar dramáticamente el rendimiento del
entorno de DW.
Las agregaciones son como indices; son estructuras de
datos específicas creadas para mejorar el rendimiento.
El Sistema de ETL debe manejar muy bien las
agregaciones/agregadas para no afectar el rendimiento con
el uso excesivo de recursos y ciclos de procesamiento.
Subsistema 20 - OLAP Cube Builder
Consiste en
Alimentar de datos a cubos OLAP desde esquemas dimensionales relacionales.
Subsistema 21 - Data Propagation Manager
Consiste en
Responsabilizarse de los procesos de ETL requeridos
para transferir datos conformados e integrados
desde la DW a otros entornos para usos especiales.
Gesión
Administrar
muy bien los
criterios de
Confiabilidad,
Disponibilidad y
Manejabilidad
Subsistema 22 - Job Scheduler
Consiste en
Administrar el proceso completo
de ETL, en la medida de lo
posible, a través de un único
entorno de control de trabajo.
Los servicios necesitados de
control de trabajo incluyen
Job definition
Job scheduling
Metadata capture
Loggin
Notification
Subsistema 23 - Backup System
Consiste en
Realizar copias de respaldo
de los datos generados
durante los procesos ETL
Un completo sistema de
respaldo debe proveer
excelentes capacidades
Entre ellas
High performance
Simple administration
Automated, lights out operations
Subsistema 24 - Recovery and Restart System
Consiste en
Permitir reiniciar un
proceso ETL en el caso de
error. Para este proceso
es fundamental un
Backup System (Sub. 23)
robusto
Subsistema 25 - Version Control System
Consiste en
Permitir hacer control de
versiones de un proyecto ETL y
de los metadatos asociados. Es una
capacidad "snapshotting" para
archivar y recuperar toda la
lógica y metadatos del flujo de
los procesos ETL.
Controla las entradas y las salidas
procesadas para todos los módulos ETL y
para los trabajos.
Subsistema 26 - Version Migration System
Consiste en
Permitir pasar proyectos en fase de desarrollo a fase de pruebas y
de pruebas a producción mediante versionado. Habilitando además
la reversión, es decir pasar de pruebas a desarrollo, por ejemplo.
Subsistema 27 - Workflow Monitor
Consiste en
Monitorizar el Sistema de ETL para medir su rendimiento y
tomar decisiones en base a los resultados para garantizar que la
DW está siendo cargada periódicamente de manera consistente.
Subsistema 28 - Sorting System
Consiste en
Ordenar los datos de origen en un orden particular para
potenciar la eficiencia de los procesos subsecuentes y, en
general, el rendimiento del Sistema de ETL y DW/BI
Subsistema 29 - Lineage and Dependency Analyzer
Consiste en
Identificar elementos dependientes, además de identificar
las transformaciones en las que participan o han participado.
También, permite la trazabilidad del dato.
Subsistema 30 - Problem Escalation System
Consiste en
Apoyar la gestión de incidencias reportadas y comprobadas por QA.
Subsistema 31 - Parallelizing/Pipelining System
Consiste en
Permitir el uso de procesos en paralelo, Grid Computing
y Clustering para mejorar el rendimiento y reducir
tiempo de los procesos en el Sistema de ETL.
Subsistema 32 - Security System
Consiste en
Gestionar el acceso a ETL y metadatos por parte de personal
no autorizado. Incluso los privilegios deben ser restringidos
dentro de los miembros del equipo de DW/BI.
Subsistema 33 - Compliance Manager
Consiste en
Permitir soportar la legislación vigente respecto a "la
cadena de custodia" y responsabilidad de datos que
debe aplicarse a la organización. Este proceso se debe
validar en el Levantamiento de Requerimientos.
Este sistema se debe apoyar en otros como
Lineage analysis
Dependency analysis
Version control
Backup and restore
Security
Audit dimension
Subsistema 34 - Metadata Repository Manager
Consiste en
Capturar y guardar los metados de
los procesos ETL, de los datos de
negocio y de los aspectos técnicos