Aula 02 e 03 - Hadoop, HDFS e MapReduce

Description

Hadoop Mind Map on Aula 02 e 03 - Hadoop, HDFS e MapReduce, created by Ronaldo Pimentel on 21/10/2017.
Ronaldo Pimentel
Mind Map by Ronaldo Pimentel , updated more than 1 year ago
Ronaldo Pimentel
Created by Ronaldo Pimentel about 7 years ago
55
3

Resource summary

Aula 02 e 03 - Hadoop, HDFS e MapReduce
  1. Conceitos
    1. Hadoop é um framework em código aberto para armazenamento e processamento distribuídos de grandes conjuntos de dados em hardware simples.
      1. História
        1. Motivado a construir um buscador complexo, que funcione na escala da web, indexando bilhões de páginas, Doug Cutting resolveu se dedicar ao desafio iniciando seu projeto Nutch junto com Mike Cafarella, mas enfrentou alguns problemas com escalabilidade
          1. 2003 (gfs) e 2004(map reduce) Nutch motor de busca web Projeto open source da apache Muitas tarefas para implementar Escalabilidade limitada Criado por doug cutting e mike cafarella Yahoo contrata doug Sistema distribuido do nutch passa a ser um outro projeto apache independente Em 2006 o novo projeto passa a se chamar hadoop Em 2009 yahoo executa 100 terabytes de dados em mais de 3 mil nos.
        2. Servicos Chave
          1. HDFS
            1. - Hadoop Distributed File System (HDFS) - Hadoop Distributed File System (HDFS) é o sistema de armazenamento distribuído utilizado por aplicações Hadoop. - O HDFS quebra os arquivos em blocos de dados - Cria réplicas destes blocos, que são distribuídos no cluster - Permitindo computações extremamente rápidas em arquivos pequenos e em máquinas distintas. - Escalável e tolerante a falhas
              1. NameNode - NN
                1. Gerencia o namespace do sistema de arquivos do Hadoop
                2. DataNode
                  1. Armazena os blocos de dados em um nó
                  2. SecondaryNameNode
                    1. Oferece tarefas de ponto de verificação e manutenção do NameNode
                    2. Exemplo
                      1. 5 nodes, Blocos de 64 MB, Arquivo de 320MB, Fator de réplica 3
                        1. Quando um nó falha em um DataNode o NN percebe a falta de comunicação e replica os blocos que estavam nesse nó para os outros nós.
                      2. comandos shell hdfs
                        1. http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html
                    3. MapReduce
                      1. Processamento paralelo de alto desempenho
                        1. O Hadoop MapReduce é um modelo de programação para criação de aplicações processam rapidamente vastas quantidades de dados em paralelo através de grandes clusters de computadores comun
                          1. O código ou programa a ser executado, é transportado até o local do dado, executando tarefas independentes em cada bloco de dado (Map), e depois são consolidados gerando a resposta do processamento (Reduce).
                          2. Workflow
                            1. - Uma aplicação cliente submete um job ao JobTracker
                              1. - JobTracker se comunica com o NameNode para determinar a localização dos dados
                                1. - JobTracker localiza os nós TaskTrackers próximos aos dados
                                  1. - JobTracker submete as tarefas aos nós TaskTrackers
                                    1. - Nós TaskTrackers são monitorados.
                                      1. - Ao completar a tarefa, o JobTracker atualiza seu status.
                            2. Estrutura de uma aplicação MapReduce
                              1. Map Atua exclusivamente sobre um conjunto de entrada com chaves e valores, produzindo uma lista de chaves e valores
                                1. Reduce Atua sobre os valores intermediários produzidos pelo map para, normalmente, agrupar os valores e produzir uma saída
                                  1. (K1,V1)→Map→list(K2,V2)→ (K2, list(V2))→Reduce→list(K3, V3)
                              2. MapReduce não é indicado para: – Consultas que necessitam de baixa latência – Sistemas de tempo-real – Consultas em um website – Processamento de pequenas tarefas – Overhead para gerenciamento das tarefas
                            3. Arquitetura
                              1. hardware: - Servidores commodity - Estruturados em cluster - Self-Healing, qualquer alteração no cluster ou problema, é detectado automaticamente e compensado com os demais
                              2. Principios
                                1. Performance escalável - Execução em paralelo - Dados complexos e de diversas fontes e tipos - Tolerante a falhas - A instrução de processamento é transportada para onde está o dado - Poucos arquivos grandes, e não muitos arquivos pequenos
                                2. Ecosistema
                                  1. ZooKeeper - coordination
                                    1. Sqoop - Data exchange
                                      1. Flume - log collector
                                        1. HDFS - Hadoop File System
                                          1. Yarn MapReduce V2 - Distribuited Procesing Framework
                                            1. Oozie - workflow
                                              1. Pig - Scripting
                                                1. Mahout - Machine learnig
                                                  1. R conenectors - Statistics
                                                    1. Hive - SqlQuery
                                                    2. Habse - Columnar Store
                                                    3. Ambari - Provisioning -Managing an MOnitoring Hadoop Clusters
                                                      1. Evolução
                                                        1. 2015 - HDFS, MR + Yarn, Zookeeper, Hbase, Mahout, Pig, Hive, Avro, Sqoop, Oozie, Flume, Kafka, Impala, Spark
                                                          1. 2012 - HDFS, MR + Yarn, Zookeeper, Hbase, Mahout, Pig, Hive, Avro, Sqoop, Oozie, Flume, Kafka, Impala.
                                                            1. 2011 - HDFS, MR + Yarn, Zookeeper, Hbase, Mahout, Pig, Hive, Avro, Sqoop, Oozie, Flume.
                                                              1. 2010 - HDFS, MR , Zookeeper, Hbase, Mahout, Pig, Hive, Avro, Sqoop.
                                                                1. 2009 - HDFS, MR, Zookeeper, Hbase, Mahout, Pig, Hive.
                                                                  1. 2008 - HDFS, MR , Zookeeper, Hbase.
                                                                    1. 2006 - HDFS, MR.
                                                                  2. aula 2 - Vmware
                                                                    1. Comandos Linux
                                                                      1. gedit – Abre editor de arquivo
                                                                        1. ls – Lista o conteúdo
                                                                          1. mkdir – cria diretório
                                                                            1. mv – renomeia ou move
                                                                              1. cd – muda de diretório
                                                                                1. cp - copia
                                                                                  1. chmod – altera permissões
                                                                                    1. more – mostra o conteúdo do arquivo paginando
                                                                                      1. cat – mostra todo conteúdo do arquivo
                                                                                        1. grep – pesquisa o conteúdo de um arquivo
                                                                                          1. rm – remove o arquivo
                                                                                        2. Aula 02 parte 3
                                                                                          1. - Verificar instalação do Java - Configurar ssh - Configurar Hadoop - Formatar o NameNode - Iniciar os processos do HDFS - Iniciar os processos do MapReduce
                                                                                            1. Verificar instalação do java
                                                                                              1. [root@localhost ~]# java -version
                                                                                              2. Configurar ssh
                                                                                                1. [root@localhost ~]# mount /dev/sda1 /mnt
                                                                                                  1. [root@localhost ~]# /etc/init.d/sshd start
                                                                                                    1. [root@localhost ~]# ssh-keygen -t rsa -P ""
                                                                                                      1. [root@localhost ~]# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
                                                                                                        1. [root@localhost ~]# ssh localhost
                                                                                                2. configurar hadoop. https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
                                                                                                  1. Fazer downoload
                                                                                                    1. descompactar na pasta
                                                                                                      1. mover para diretorio hadoop
                                                                                                        1. editar arquivo hadoop-env.sh
                                                                                                          1. possui os dados das variáveis de ambiente do java
                                                                                                            1. editar arquivo core-site.xml
                                                                                                              1. configura a pasta temporaria, o endereço do navegador e a porta de conexão
                                                                                                                1. editar arquivo mapred-site.xml
                                                                                                                  1. configura o endereço do navegador para visualizar status do job tracker
                                                                                                                    1. editar arquivo hdfs-site.xml
                                                                                                                      1. configura a qtde de réplicas dos arquivos e o tamanho de cada bloco
                                                                                                                        1. formatar namenode
                                                                                                                          1. inicia processos hdfs
                                                                                                                            1. start-dfs.sh
                                                                                                                            2. inicia processos mapReduce
                                                                                                                              1. start-mapred.sh
                                                                                                          Show full summary Hide full summary

                                                                                                          Similar

                                                                                                          Bigdata - Arquitetura Hadoop
                                                                                                          Ronaldo Pimentel
                                                                                                          Bigdata - Arquitetura Hadoop
                                                                                                          Gustavo Galhardo
                                                                                                          Bigdata - Arquitetura Hadoop
                                                                                                          Roberta Reis
                                                                                                          Bigdata - Arquitetura Hadoop
                                                                                                          Wagner Oliveira Nascimento
                                                                                                          Bigdata - Arquitetura Hadoop
                                                                                                          WALLACE SANTOS GRACA
                                                                                                          Hitler's Chancellorship
                                                                                                          c7jeremy
                                                                                                          med chem 2
                                                                                                          lola_smily
                                                                                                          GCSE AQA Chemistry - Unit 3
                                                                                                          James Jolliffe
                                                                                                          Truman Doctrine, Marshall Plan, Cominform and Comecon
                                                                                                          Alina A
                                                                                                          Blood MCQs Physiology PMU 2nd Year
                                                                                                          Med Student
                                                                                                          AAHI_Card set 10 (Suffixes)
                                                                                                          Tafe Teachers SB