Zusammenfassung der Ressource
¿Qué es Big Data?
- Es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi
estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos
relacional para su análisis. Big Data aplica para toda aquella información que no puede ser
procesada o analizada utilizando procesos o herramientas tradicionales.
- ¿De dónde proviene toda esa
información?
- Sector público: en muchos países se administran enormes bases de datos que contienen datos de
censo de población, registros médicos, impuestos;transacciones financieras realizadas en línea o por
dispositivos móviles, análisis de redes sociales; ubicación geográfica mediante coordenadas GPS.
- ¿Qué tipos de datos debo explorar?
- Web and Social Media: Incluye contenido web
e información que es obtenida de las redes
sociales como Facebook, Twitter, LinkedIn,
etc,
- Machine-to-Machine (M2M): M2M se refiere
a las tecnologías que permiten conectarse a
otros dispositivos. M2M utiliza dispositivos
como sensores o medidores que capturan
algún evento en particular (velocidad,
temperatura, presión, variables
meteorológicas, variables químicas como la
salinidad, etc.)
- Big Transaction Data: Incluye registros de
facturación, en telecomunicaciones registros
detallados de las llamadas (CDR), etc. Estos
datos transaccionales están disponibles en
formatos tanto semiestructurados como no
estructurados.
- Biometrics: Información biométrica en la
que se incluye huellas digitales, escaneo de
la retina, reconocimiento facial, genética,
etc.
- Human Generated: Las personas
generamos diversas cantidades de datos
como la información que guarda un call
center al establecer una llamada
telefónica, notas de voz, correos
electrónicos, documentos electrónicos,
estudios médicos, etc.
- Big Data y el campo de investigación
- • El Language, Interaction and Computation
Laboratory (CLIC) en conjunto con la
Universidad de Trento en Italia, son un grupo de
investigadores cuyo interés es el estudio de la
comunicación verbal y no verbal tanto con
métodos computacionales como cognitivos.
- • Lineberger Comprehensive Cancer Center -
Bioinformatics Group utiliza Hadoop y HBase
para analizar datos producidos por los
investigadores de The Cancer Genome
Atlas(TCGA) para soportar las investigaciones
relacionadas con el cáncer.
- • El PSG College of Technology, India, analiza
múltiples secuencias de proteínas para determinar
los enlaces evolutivos y predecir estructuras
moleculares. La naturaleza del algoritmo y el
paralelismo computacional de Hadoop mejora la
velocidad y exactitud de estas secuencias.
- • La Universidad de Maryland es una de las seis
universidades que colaboran en la iniciativa
académica de cómputo en la nube de
IBM/Google. Sus investigaciones incluyen
proyectos en la lingüistica computacional
(machine translation), modelado del lenguaje,
bioinformática, análisis de correo electrónico y
procesamiento de imágenes.