PREPROCESAMIENTO Y CALIDAD DE DATOS
Tecnologías como Internet generan datos a un ritmo exponencial gracias abaramiento y gran desarrollo del almacenamiento y los recursos de red.
CARACTERÍSTICAS
La veracidad y el valor de los datos y cuyo objetivo es filtrar el ruido y mantener los datos valiosos que pueden ser utilizados para la toma de decisiones inteligentes.
LA PREPARACIÓN DE LOS DATOS
El sistema prepara las bases de los datos que serán utilizados durante todo el ciclo del proceso en sus diferentes etapas.
SPARK
es perfecto para procesos iterativos donde un mismo dato es reutilizado varias veces para el procesamiento de algoritmos sobre grafos, etc.
REDUNDANCIA ACUMULADA
Desarrolla una aproximación voraz al problema de calculo de importancia de atributos.
PROCESAMIENTO POR COLUMNAS
Normalmente formando una lista de filas son transformados a unas lista de columnas de manera que los cálculos entre atributos se tornan mas sencillos de realizar.