Zusammenfassung der Ressource
Los 34 Subsistemas y Procesos de ETL
- Se clasifican en 4 grupos
- Extracción
- Se extraen
los datos de
los sistemas
fuentes
- Subsistema 1 - Data Profiling
- Consiste en
- El análisis técnico de los datos para
describir su contenido, consistencia y
estructura. En cierto sentido, cada
vez que se realiza una consulta de
investigación SELECT DISTINCT, se
está haciendo Data Profiling.
- Subsistema 2 - Change Data Capture
- Consiste en
- Transferir sólo la información que
ha cambiado desde la última
carga
- Hay varias formas para captar los
cambios en la fuente de datos
- Algunas formas son
- Auditar columnas
- Medir los cambios en los
tiempos de extracción
- Comparación completa -
Registro por registro
- Revisar logs de la base de datos
- Monitorear la cola de mensajes del
Sistema de Transacciones Basados en
Mensajes
- Subsistema 3 - Extract System
- Consiste en
- Extraer la información desde la
fuente de origen hasta la fuente
de destino.
- Hay dos métodos principales
- Extraer los datos en
archivos. Como en
formato XML por
ejemplo.
- Extraerlos en un flujo
de información: stream.
- Limpieza y Conformación
- Se depuran la
información
para garantizar
una mejor
Calidad de
Datos
- Subsistema 4 - Data Cleansing System
- Consiste en
- Implementar procesos
que permitan detectar
inconsistencias en los
datos.
- Son
importantes
las
- Pantallas de Calidad -
Quality Screens
- Son el corazón de la
arquitectura ETL por cuanto
actúan como filtros de
diagnóstico en el flujo de datos
- Subsistema 5 - Error Event Schema
- Consiste en
- Mantener un esquema para el manejo de
eventos de error cuyo propósito es
registrar cada evento de error lanzado por
una pantalla de calidad en cualquier parte
del proceso de ETL.
- Subsistema 6 - Audit Dimension Assembler
- Consiste en
- Crear metadatos
asociados a cada tabla
para validar la evolución de
la Calidad de los Datos
- Subsistema 7 - Deduplication
- Consiste en
- Eliminar información redundante
de tablas importantes como
cliente o producto.
- Implica
- Cruzar múltiples tablas en
múltiples sistemas de
información para detectar
un patrón que permita
identificar cuando un
registro está duplicado.
- Subsistema 8 - Conforming
- Consiste en
- Identificar elementos equivalentes
que permiten compartir información
entre tablas relacionadas.
- Entrega
- Se prepara la
información
para su
posterior
entrega
- Subsistema 9 - Slowly Changing Dimension Manager (SCD)
- Consiste en
- Implementar la lógica para crear
atributos de variabilidad lenta a lo
largo del tiempo. El sistema ETL debe
determinar cómo manejar el valor de
un atributo de dimensión que ha
cambiado desde el valor ya
almacenado en la DW.
- Tipos de acciones a tomar
- Tipo 1: Sobrescribir
- Tipo 2: Crear un nuevo registro
- Tipo 3: Agregar una nueva columna
- Híbrido: Combinación de tipos
- Subsistema 10 - Surrogate Key Generator
- Consiste en
- Crear claves subrogadas
independientes para cada tabla
- Subsistema 11 - Hierarchy Manager
- Consiste en
- Hacer inserciones en estructuras
jerárquicas de tablas.
- Subsistema 12 - Special Dimensions Manager
- Consiste en
- Crear dimensiones especiales
- Tales como
- Date/Time
- Junk
- Mini-dimensions
- Shrunken
- Small static
- User maintained
- Subsistema 13 - Fact Table Builders
- Consiste en
- Crear Tablas de Hecho las
cuales conservan mediciones
importantes para la
organización
- Tipos de Tablas de Hecho
- Transaction Grain Fact Table (Loader)
- Periodic Snapshot Fact Table (Loader)
- Accumulating Snapshot Fact Table Loader
- Subsistema 14 - Surrogate Key Pipeline
- Consiste en
- Incluir un paso para reemplazar las claves
operacionales por las claves subrogadas.
- Subsistema 15 - Multi-Valued Dimension Bridge Table Builder
- Consiste en
- Construir tablas puente para soportar
las relaciones de Muchos a Muchos.
- Subsistema 16 - Late Arriving Data Handler
- Consiste en
- Permitir aplicar cambios a los procesos
en caso de que los datos tarden en llegar.
- Subsistema 17 - Dimension Manager System
- Consiste en
- Preparar y publicar dimensiones
conformadas al equipo de DW
- Una dimensión conformada
- Es por necesidad un recurso
gestionado de forma
centralizada; cada dimensión
conformada debe tener una
única fuente y esta debe ser
consistente.
- Subsistema 18 - Fact Provider System
- Consiste en
- El proveedor de Tablas de hecho es responsable de una o
más Tablas de hecho, de su creación, mantenimiento y uso.
- Subsistema 19 - Aggregate Builder
- Consiste en
- Gestionar las agregadas ya que pueden
afectar dramáticamente el rendimiento del
entorno de DW.
- Las agregaciones son como indices; son estructuras de
datos específicas creadas para mejorar el rendimiento.
- El Sistema de ETL debe manejar muy bien las
agregaciones/agregadas para no afectar el rendimiento con
el uso excesivo de recursos y ciclos de procesamiento.
- Subsistema 20 - OLAP Cube Builder
- Consiste en
- Alimentar de datos a cubos OLAP desde esquemas dimensionales relacionales.
- Subsistema 21 - Data Propagation Manager
- Consiste en
- Responsabilizarse de los procesos de ETL requeridos
para transferir datos conformados e integrados
desde la DW a otros entornos para usos especiales.
- Gesión
- Administrar
muy bien los
criterios de
Confiabilidad,
Disponibilidad y
Manejabilidad
- Subsistema 22 - Job Scheduler
- Consiste en
- Administrar el proceso completo
de ETL, en la medida de lo
posible, a través de un único
entorno de control de trabajo.
- Los servicios necesitados de
control de trabajo incluyen
- Job definition
- Job scheduling
- Metadata capture
- Loggin
- Notification
- Subsistema 23 - Backup System
- Consiste en
- Realizar copias de respaldo
de los datos generados
durante los procesos ETL
- Un completo sistema de
respaldo debe proveer
excelentes capacidades
- Entre ellas
- High performance
- Simple administration
- Automated, lights out operations
- Subsistema 24 - Recovery and Restart System
- Consiste en
- Permitir reiniciar un
proceso ETL en el caso de
error. Para este proceso
es fundamental un
Backup System (Sub. 23)
robusto
- Subsistema 25 - Version Control System
- Consiste en
- Permitir hacer control de
versiones de un proyecto ETL y
de los metadatos asociados. Es una
capacidad "snapshotting" para
archivar y recuperar toda la
lógica y metadatos del flujo de
los procesos ETL.
- Controla las entradas y las salidas
procesadas para todos los módulos ETL y
para los trabajos.
- Subsistema 26 - Version Migration System
- Consiste en
- Permitir pasar proyectos en fase de desarrollo a fase de pruebas y
de pruebas a producción mediante versionado. Habilitando además
la reversión, es decir pasar de pruebas a desarrollo, por ejemplo.
- Subsistema 27 - Workflow Monitor
- Consiste en
- Monitorizar el Sistema de ETL para medir su rendimiento y
tomar decisiones en base a los resultados para garantizar que la
DW está siendo cargada periódicamente de manera consistente.
- Subsistema 28 - Sorting System
- Consiste en
- Ordenar los datos de origen en un orden particular para
potenciar la eficiencia de los procesos subsecuentes y, en
general, el rendimiento del Sistema de ETL y DW/BI
- Subsistema 29 - Lineage and Dependency Analyzer
- Consiste en
- Identificar elementos dependientes, además de identificar
las transformaciones en las que participan o han participado.
También, permite la trazabilidad del dato.
- Subsistema 30 - Problem Escalation System
- Consiste en
- Apoyar la gestión de incidencias reportadas y comprobadas por QA.
- Subsistema 31 - Parallelizing/Pipelining System
- Consiste en
- Permitir el uso de procesos en paralelo, Grid Computing
y Clustering para mejorar el rendimiento y reducir
tiempo de los procesos en el Sistema de ETL.
- Subsistema 32 - Security System
- Consiste en
- Gestionar el acceso a ETL y metadatos por parte de personal
no autorizado. Incluso los privilegios deben ser restringidos
dentro de los miembros del equipo de DW/BI.
- Subsistema 33 - Compliance Manager
- Consiste en
- Permitir soportar la legislación vigente respecto a "la
cadena de custodia" y responsabilidad de datos que
debe aplicarse a la organización. Este proceso se debe
validar en el Levantamiento de Requerimientos.
- Este sistema se debe apoyar en otros como
- Lineage analysis
- Dependency analysis
- Version control
- Backup and restore
- Security
- Audit dimension
- Subsistema 34 - Metadata Repository Manager
- Consiste en
- Capturar y guardar los metados de
los procesos ETL, de los datos de
negocio y de los aspectos técnicos
- PAULO ALEXANDER CHIRÁN