¿Cuál de estos NO es un comando de vagrant?
vagrant up
vagrant destroy
vagrant exit vm
vagrant halt
¿Podría ser ésta una definición de big data? En términos generales podríamos referirnos como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis.
Hadoop está compuesto de tres piezas: , y Common.
¿Qué factores (demonios) manejan el funcionamiento de Hadoop?
NameNode
Secondary Namenode
DataNode
JobTracker
TaskTracker
Master Node
Slave Node
Es el nodo máster encargado de gestionar el namespace del sistema de ficheros. También se encarga del mantenimiento de los metadata de todos los ficheros y directorios que forman parte del sistema HDFS.
Las posibles implementaciones de Hadoop son: , y
Los formatos de entrada y salida de Hadoop (input/output formats) son totalmente diferentes en cuanto a tipos de datos disponibles
¿Cuál es el formato por defecto que toma el MapReduce?
TextInputFormat
KeyValueTextInputFormat
NLineInputFormat
¿Qué valores puede tomar el nombre del archivo de salida del proceso MapReduce?
m
r
x
0
Las tres clases básicas para programar un MapReduce en Java con Hadoop son: , y
El comando $ hadoop fs nos muestra el contenido del HDFS
Para estrategias de loggin en Hadoop, es recomendable utilizar println
La herramienta Sqoop nos sirve para:
Almacenar datos en el HDFS
Consultar datos de salida del MapReduce
Importar/exportar datos de BD relacionales al HDFS y viceversa
Oozie Hive Pig Impala( Oozie, Hive, Pig, Impala ) es un sistema de coordinación o flujo de trabajo que administra trabajos de Hadoop.
Entre las herramientas creadas por Facebook para Hadoop tenemos a y , mientras que nos ofrece Impala
Los componentes de un cluster de Storm son:
Worker Nodes
Zookeeper
Storm Hive Hadoop( Storm, Hive, Hadoop ) está orientado al procesamiento de data en tiempo real a diferencia de Spark y Hadoop Hadoop y Storm Storm y Spark( Spark y Hadoop, Hadoop y Storm, Storm y Spark )