Apache Hadoop

Framework de código abierto
1. Procesa gran volumen de datos distribuidos
Arquitectura
1. NameNode (master)
  1. Controla el acceso de clientes a la información
  2. Secundary NameNode
    1. Copia el namespace, en caso de reinicio de sistema a causa de fallos en el NameNode
2. DataNodes
  1. Almacenamiento de bloques de datos
  2. Entregar información
  3. Reporte de metadatos
3. HDFS
  1. Utiliza múltiples computadoras genéricas en clústers
4. JobTracker
  1. Crea tareas MapReduce
  2. Comprobar tareas fallidas
  3. Puede re-programar en caso de fallos
5. TraskTracker
  1. Corre MapReduce
    1. Paralelizar procesos en dos fases
      1. Mapeo: Escaner de datos y generar listas clave-valor
      2. Reduce: Procesa y genera resultados
Modos de funcionamiento
1. Local pseudo-distribuido
  1. Nodo único en un solo proceso Java
2. Local
  1. Nodo único pero en procesos Java diferente
3. Distribuido
  1. Múltiples nodos distribuidos
Entorno
1. Únicamente en entorno Linux y tener instalado Java
Instalación
1. Descargar desde la Web Oficial
  1. Crear usuario para administrar Hadoop
    1. Logeo y agragar variables de entorno
      1. Ejecutar 'source.bashrd'
2. Configurar SSH
  1. Configurar el protocolo
    1. $ sudo apt-get install ssh | $ ssh-keygen -t rsa -f ~/.ssh/id_rsa | $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    2. Otorgar permisos
      1. Comprobar conexión
        $ ssh localhost
        Desactivar protocolo IPv6
        $ net.ipv6.conf.all.disable_ipv6 = 1 $ net.ipv6.conf.default.disable_ipv6 = 1 $ net.ipv6.conf.lo.disable_ipv6 = 1
      2. $ sudo chmod go-w $HOME $HOME/.ssh $ sudo chmod 600 $HOME/.ssh/authorized_keys $ sudo chown `whoami` $HOME/.ssh/authorized_keys
  2. Configurar HDFS
    1. ‘/usr/local/hadoop/etc/hadoop’
      1. core-site.xml
        Configurar el directorio HDFS por defecto en el localhost
      2. hdfs-site.xml
        Informa como Hadoop almacenará la información
      3. mapred-site.xml
        Especifica quien realiza el MapReduce y donde se lleva a cabo
      4. yarn-site.xml
        Configurar el YARN

Anexos de mídia

Hadoop (binary/octet-stream)

Próximo

Apache Hadoop

Descrição

Resumo de Recurso

Anexos de mídia

Semelhante

	Criado por JAMESON SLEYDER TIERRADENTRO GARZON mais de 2 anos atrás