BIG DATA
SMART DATA
Su objetivo es filtrar el ruido, y mantener los datos valiosos, que pueden ser utilizado para toma de decisiones inteligentes.
TRES ASPECTOS ESENCIALES EN EL USO DE LOS DATOS
a). EXACTOS: Los datos deben ser lo que se dice, es importante la calidad.
b).PROCESABLES: Los datos deben ser escalables para su procesamiento.
c). ÁGILES: Los datos deben estar
disponibles y preparados para adaptarse al entorno cambiante delos negocios.
PREPROCESAMIENTO DE DATOS
Es una etapa esencial del proceso de descubrimiento de información.Esta etapa se encarga de la limpieza de datos, su integracion, transformación y reducción para la siguiente fase de minería de datos
El uso de datos de baja calidad implica un proceso de minería de datos con pobres resultados , para esto es necesario aplicar las técnicas de preprocesamiento.
PREPARACIÓN DE DATOS
Esta formada por una serie de técnicas que tiene como objetivo de inicializar correctamente los datos que servirán de entrada para los algoritmos de minería de datos
REDUCCIÓN DE DATOS
Se orienta a obtener una representación reducida de los datos originales, manteniendo en lo posible la integridad y la información existente de los datos .
las técnicas de reducción de datos mas relevantes son:
-La selección de atributos
-La selección de instancias
-La discretizacion
La necesidad de procesar y extraer conocimiento valioso de esa inmensidad de datos es un desafió para cientificos de datos y expertos en la materia.
Los nuevos esquemas de procesamiento debe ser diseñados para procesar conjunto de datos grandes, datos masivos, dentro de un rango de precisión adecuado.
En el paradigma MapReduce existen dos faces:
-Map
-Reduce
REDUCE
En esta fase los pares con claves coincidentes son enviadas al mismo nodo y finalmente fusionados usando una función definida por el usuario.
APACHE SPARK
Nace como una alternativa para solucionar las limitaciones de MapReduce. Se a convertido en una de las herramientas mas populares en el ecosistema del Big Data
APACHE FLINK
Esta plataforma intenta llenar el hueco entre el procesamiento en tiempo real y el secuencial dejado por Spark. Es una plataforma distribuida para flujos de datos que también pude trabajar con datos secuenciales.
HERRAMIENTAS PARA LA ANALÍTICA DE DATOS MASIVOS
Han surgido varias herramientas de analítica de datos escalables con el objetivo de dar soporte al proceso de análisis de datos
-MLlib: Es una biblioteca de aprendizaje automático que contiene varias utilidades estadísticas y algoritmos de aprendizaje .
-H2O: Es una plataforma de código abierto para análisis de Big Data. H2O destaca por sus implementaciones iterativas, ademas de que puede ejecutarse en sistemas tradicionales (windows, linux), así como en plataformas Big Data (Spark).
ALGORITMOS DE PREPROCESAMIENTO DE DATOS MASIVOS
Algoritmos de preprocesamiento disponible en las herramientas de analítica de datos.
*DISCRETIZACIÓN Y NORMALIZACIÓN:
Discretización: Transforma atributos continuos usando intervalos discretos.
Normalización: Realiza un ajuste a la distribución.
EXTRACCIÓN DE ATRIBUTOS
Combina el conjunto original de atributos para obtener un nuevo conjunto de atributos menos redundantes, usando proyecciones.
SELECCIÓN DE ATRIBUTOS
Selecciona subconjuntos de atributos minimizando la pérdida de información
CONVERSORES PARA ATRIBUTOS
Utilizando técnicas de indexación o codificación transforma atributos de un tipo a otro.
TÉCNICAS PARA EL PREPROCESAMIENTO DE TEXTO
Su objetivo es estructurar la entrada de texto,produciendo patrones de información estructurados.
En la biblioteca FlinkML encontramos tres métodos de procesamiento actualmente:
-Un algoritmo que transforma un conjunto de atributos aun espacio polinominal.
-Dos algoritmos para normalización
Mahout solo ofrece algoritmos para reducción de dimensionalidad como, SVD, QR Decomposition.
CASO DE USO: SELECCIÓN DE ATRIBUTOS ESCALABLES, ALGORITMO Fast-mRMR
Esta propuesta incluye varias optimizaciones a la eficiencia del algoritmo original mRMR una de las más populares en su ambito
OPTIMIZACIONES MAS RELEVANTES INTRODUCIDAS POR FAST-mRMR
2. RE-UTILIZACIÓN DE CÁLCULOS PREVIOS
Almacena algunos datos importantes para su reutilización cuando son calculados por primera vez
CONCLUSIÓN
Se estudia la importancia del preprocesamiento de los datos en Big Data, herramientas de analítica de datos y técnicas y algoritmos disponibles para el preprocesamiento de datos masivos.
Para el Big Data es necesario diseñar nuevos algoritmos que se centren en problemas como selección de instancias o el tratamiento de datos imperfectos.