Zusammenfassung der Ressource
Apache Hadoop
- Framework de código abierto
- Procesa gran volumen de datos distribuidos
- Arquitectura
- NameNode (master)
- Controla el acceso de
clientes a la información
- Secundary NameNode
- Copia el namespace, en caso de
reinicio de sistema a causa de fallos
en el NameNode
- DataNodes
- Almacenamiento de bloques de datos
- Entregar información
- Reporte de metadatos
- HDFS
- Utiliza múltiples computadoras
genéricas en clústers
- JobTracker
- Crea tareas MapReduce
- Comprobar tareas fallidas
- Puede re-programar en caso de fallos
- TraskTracker
- Corre MapReduce
- Paralelizar procesos en dos fases
- Mapeo: Escaner de datos y
generar listas clave-valor
- Reduce: Procesa y genera
resultados
- Modos de funcionamiento
- Local pseudo-distribuido
- Nodo único en un solo proceso Java
- Local
- Nodo único pero en procesos Java diferente
- Distribuido
- Múltiples nodos distribuidos
- Entorno
- Únicamente en entorno Linux y tener instalado Java
- Instalación
- Descargar desde la Web Oficial
- Crear usuario para administrar Hadoop
- Logeo y agragar variables de entorno
- Ejecutar 'source.bashrd'
- Configurar SSH
- Configurar el protocolo
- $ sudo apt-get install ssh |
$ ssh-keygen -t rsa -f
~/.ssh/id_rsa | $ cat
~/.ssh/id_rsa.pub >>
~/.ssh/authorized_keys
- Otorgar permisos
- Comprobar conexión
- $ ssh localhost
- Desactivar protocolo IPv6
- $ net.ipv6.conf.all.disable_ipv6 = 1
$ net.ipv6.conf.default.disable_ipv6
= 1 $ net.ipv6.conf.lo.disable_ipv6 =
1
- $ sudo chmod go-w $HOME $HOME/.ssh
$ sudo chmod 600
$HOME/.ssh/authorized_keys $ sudo
chown `whoami`
$HOME/.ssh/authorized_keys
- Configurar HDFS
- ‘/usr/local/hadoop/etc/hadoop’
- core-site.xml
- Configurar el directorio HDFS por defecto en el localhost
- hdfs-site.xml
- Informa como Hadoop almacenará la información
- mapred-site.xml
- Especifica quien realiza el MapReduce y donde se lleva a cabo
- yarn-site.xml
- Configurar el YARN