Es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi
estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos
relacional para su análisis. Big Data aplica para toda aquella información que no puede ser
procesada o analizada utilizando procesos o herramientas tradicionales.
¿De dónde proviene toda esa
información?
Sector público: en muchos países se administran enormes bases de datos que contienen datos de
censo de población, registros médicos, impuestos;transacciones financieras realizadas en línea o por
dispositivos móviles, análisis de redes sociales; ubicación geográfica mediante coordenadas GPS.
¿Qué tipos de datos debo explorar?
Web and Social Media: Incluye contenido web
e información que es obtenida de las redes
sociales como Facebook, Twitter, LinkedIn,
etc,
Machine-to-Machine (M2M): M2M se refiere
a las tecnologías que permiten conectarse a
otros dispositivos. M2M utiliza dispositivos
como sensores o medidores que capturan
algún evento en particular (velocidad,
temperatura, presión, variables
meteorológicas, variables químicas como la
salinidad, etc.)
Big Transaction Data: Incluye registros de
facturación, en telecomunicaciones registros
detallados de las llamadas (CDR), etc. Estos
datos transaccionales están disponibles en
formatos tanto semiestructurados como no
estructurados.
Biometrics: Información biométrica en la
que se incluye huellas digitales, escaneo de
la retina, reconocimiento facial, genética,
etc.
Human Generated: Las personas
generamos diversas cantidades de datos
como la información que guarda un call
center al establecer una llamada
telefónica, notas de voz, correos
electrónicos, documentos electrónicos,
estudios médicos, etc.
Big Data y el campo de investigación
• El Language, Interaction and Computation
Laboratory (CLIC) en conjunto con la
Universidad de Trento en Italia, son un grupo de
investigadores cuyo interés es el estudio de la
comunicación verbal y no verbal tanto con
métodos computacionales como cognitivos.
• Lineberger Comprehensive Cancer Center -
Bioinformatics Group utiliza Hadoop y HBase
para analizar datos producidos por los
investigadores de The Cancer Genome
Atlas(TCGA) para soportar las investigaciones
relacionadas con el cáncer.
• El PSG College of Technology, India, analiza
múltiples secuencias de proteínas para determinar
los enlaces evolutivos y predecir estructuras
moleculares. La naturaleza del algoritmo y el
paralelismo computacional de Hadoop mejora la
velocidad y exactitud de estas secuencias.
• La Universidad de Maryland es una de las seis
universidades que colaboran en la iniciativa
académica de cómputo en la nube de
IBM/Google. Sus investigaciones incluyen
proyectos en la lingüistica computacional
(machine translation), modelado del lenguaje,
bioinformática, análisis de correo electrónico y
procesamiento de imágenes.