Es el Proceso que permite a las Organizaciones mover Datos desde multiples fuentes
Extraer
La extración
convierte los datos a
un formato
preparado para
iniciar el proceso de
transformación
Analizar los datos Extraídos
Causar un impacto mínimo en el sistema origen
Transformar
Fase de
transformación, aplica
una serie de reglas de
negocio o funciones
sobre los ddatos
extraídos
Traducir Códigos
Codificar valores
Libres, Transponer,
Dividir una columna en
varias datos
Obtener nuevos valores calculados
Calcular totales de múltiples filas de datos
Generación de campos clave en el destino
Cargar
Momento en el cual los datos
de la fase
anterior(transformación) son
cargados en el sistema de
destino
En algunas bases de datos se
sobre escribe la información
antigua con nuevos datos
2 Formas de procesos de carga
Acumulación Simple
Consiste en realizar un resumen
de todas las transacciones
comprendidas en el periodo de
tiempo selecionado
Rolling
Se almacena información
resumuda a distintos
niveles, correspondientes a
distintas agrupaciones de la
unidad de tiempo
diferentes niveles
jerarquicos
Procesamiento paralelo
De Datos
Consiste en dividir
un único archivo
secuencial en
pequeños archivos
de datos para
proporcionar acceso
paralelo
De segmentación (pipeline)
Permite el
funcionamiento
simultaneo de
varios
componentes en el
mismo flujo de
datos
De componentes
Consiste en el
funcionamiento
simultaneo de
múltiples procesos en
diferentes flujos de
datos
Desafios
Los procesos ETL pueden ser muy complejos
Un sistema ETL mal diseñado puede provocar importantes problemas operativos
Es un sistema operacional el rango de
valores de los datos o la calidad de
éstos pueden no coincidir con las
expectativas de los diiseñadores a la
hora de especificarse las reglas de
validación o transformación
El proceso ETL es clave para lograr que los datos extraídos
asíncronamente de orígenes heterogéneos