Bigdata - Arquitetura Hadoop

Description

Hadoop Mind Map on Bigdata - Arquitetura Hadoop, created by Ronaldo Pimentel on 12/10/2017.
Ronaldo Pimentel
Mind Map by Ronaldo Pimentel , updated more than 1 year ago
Ronaldo Pimentel
Created by Ronaldo Pimentel about 7 years ago
82
3

Resource summary

Bigdata - Arquitetura Hadoop
  1. Características
    1. Rápido
      1. Volume
        1. diferentes fontes
        2. Tecnologias
          1. Hadoop é um framework em código aberto para armazenamento e processamento distribuídos de grandes conjuntos de dados em hardware simples
            1. Projeto Nutch - Doug Cutting e Mike Cafarella. havia problemas de escalabilidade.
              1. Escalabilidade Conforme o aumento do volume de dados, é necessário que aumente a escalabilidade. Existem dois tipos: - Vertical: Aumentar o poder de processamento e armazenamento das máquinas - Horizontal: Aumentar o número de máquinas
                1. Hadoop foi Criado em 2005 a partir do white paper google "The Google File System" (GFS)
                  1. Hadoop
                    1. HDFS
                      1. escalabilidade horizontal --> em VARIAS maquinas
                        1. Arquivo é quebrado em vários pedaços de 64MB. padrão de mercado. Horton Claudera já utilizam tamanho maior.
                          1. É feito três cópias e distribuído pelo cluster
                            1. Algoritmo de distribuição é pensado para segurança do dado e aproveitamento do recurso.
                              1. Nodes
                                1. Namenode NN
                                  1. NameNode is the centerpiece of HDFS. NameNode is also known as the Master NameNode only stores the metadata of HDFS – the directory tree of all files in the file system, and tracks the files across the cluster. NameNode does not store the actual data or the dataset. The data itself is actually stored in the DataNodes. NameNode knows the list of the blocks and its location for any given file in HDFS. With this information NameNode knows how to construct the file from blocks. NameNode is so critical to HDFS and when the NameNode is down, HDFS/Hadoop cluster is inaccessible and considered down. NameNode is a single point of failure in Hadoop cluster. NameNode is usually configured with a lot of memory (RAM). Because the block locations are help in main memory.
                                    1. fsimage - Its the snapshot of the filesystem when namenode started
                                      1. Edit logs - Its the sequence of changes made to the filesystem after namenode started
                                        1. Only in the restart of namenode , edit logs are applied to fsimage to get the latest snapshot of the file system. But namenode restart are rare in production clusters which means edit logs can grow very large for the clusters where namenode runs for a long period of time. The following issues we will encounter in this situation. Editlog become very large , which will be challenging to manage it Namenode restart takes long time because lot of changes has to be merged In the case of crash, we will lost huge amount of metadata since fsimage is very old
                                        2. fontes: http://hadoopinrealworld.com/namenode-and-datanode/ http://blog.madhukaraphatak.com/secondary-namenode---what-it-really-do/
                                        3. Secondary namenode SNN - Secondary Namenode helps to overcome the above issues by taking over responsibility of merging editlogs with fsimage from the namenode.
                                          1. It gets the edit logs from the namenode in regular intervals and applies to fsimage Once it has new fsimage, it copies back to namenode Namenode will use this fsimage for the next restart,which will reduce the startup time Secondary Namenode whole purpose is to have a checkpoint in HDFS. Its just a helper node for namenode.That’s why it also known as checkpoint node inside the community. So we now understood all Secondary Namenode does puts a checkpoint in filesystem which will help Namenode to function better. Its not the replacement or backup for the Namenode. So from now on make a habit of calling it as a checkpoint node.
                                          2. DataNode
                                            1. DataNode is responsible for storing the actual data in HDFS. DataNode is also known as the Slave NameNode and DataNode are in constant communication. When a DataNode starts up it announce itself to the NameNode along with the list of blocks it is responsible for. When a DataNode is down, it does not affect the availability of data or the cluster. NameNode will arrange for replication for the blocks managed by the DataNode that is not available. DataNode is usually configured with a lot of hard disk space. Because the actual data is stored in the DataNode.
                                              1. usa disco
                                              2. usa memória
                                            2. MapReduce
                                              1. Caracteristicas
                                                1. Arcabouço de software para facilitar a execução de aplicações que processam um grande volume de dados em um cluster de milhares de nós de hardware convencional de maneira tolerante a falhas.
                                                  1. Tolerância a falhas ;Balanceamento de carga; Comunicação entre máquinas; Escalonamento de tarefas; Alocação de máquinas; Escalabilidade
                                                    1. Processo computacional que utiliza chave e valores. Usa força bruta - todo o conjunto de dados é processado em cada query. Modelo de processamento batch Flexibilidade - Pode processar vários tipos de arquivo, dados estruturados ou não estruturado. Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros. Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig).
                                                    2. JobTracker (JT) • Nó mestre • Gerenciador de tarefas MapReduce
                                                      1. Um programa completo Uma aplicação
                                                        1. Classes Mapper
                                                          1. Classes Reducer
                                                            1. Classes Driver
                                                            2. Mova as tarefas, não os dados 1. Uma aplicação cliente submete um job ao JobTracker 2. JobTracker se comunica com o NameNode para determinar a localização dos dados 3. JobTracker localiza os nós TaskTrackers próximos aos dados 4. JobTracker submete as tarefas aos nós TaskTrackers
                                                            3. TaskTracker (TT) • Executam as tarefas MapReduce
                                                              1. Execução de um Mapper ou Reducer sobre uma fatia dos dados
                                                                1. 1 - Tarefas Map
                                                                  1. Recebe dados
                                                                    1. Split dos dados
                                                                      1. Apuração chave/valor por nó
                                                                      2. Tolerância a falhas 1. Em um grande cluster, as máquinas ficam lentas ou falham com frequência 2. MapReduce oferece recuperação automática de tarefas que falharam 3. MapReduce redireciona tarefas falhas para outros nós do cluster
                                                                        1. 3 - Tarefas Reduce
                                                                          1. Recebe os dados no formato chave/valor
                                                                            1. Sumariza de acordo com a necessidade
                                                                              1. Entrega a apuração final
                                                                              2. 2 - Shuffle and sort
                                                                                1. Agrupa em uma estrutura de coleção todos os valores escritos no Map para um mesmo valor de chave, e depois os envia para tarefas da fase Reduce
                                                                              3. Modelo chave/valor
                                                                                1. fontes: http://www.univale.com.br/unisite/mundo-j/artigos/53_Mapreduce.pdf http://blog.werneckpaiva.com.br/2011/08/como-funciona-o-map-reduce-usado-pelo-google/
                                                                                2. Modos de execução BIG DATA • Local (standalone) – Executado como um único processo java – Recomendado para depuração de código • Pseudo-distribuído – Todos os componentes Hadoop são executados em uma única máquina – Cada componente é executado em um processo java separado • Completamente distribuído – Cluster Hadoop utilizando múltiplas máquinas
                                                                                  1. … é um framework open source desenvolvido em Java … é projetado para manipular grande volume de dados … é projetado para ser escalável em milhares de máquinas … é projetado para ser executado em hardware de baixo custo … oferece resiliência por meio da replicação de dados … oferece recuperação automática do processo em caso de falha … faz distribuição automática dos dados no cluster … projetado para levar o processamento para o dado
                                                                                3. Em 2004 o Google lança o white paper "MapReduce: Simplified Data Processing on Large Clusters"
                                                                          Show full summary Hide full summary

                                                                          Similar

                                                                          BigData Divisão Aulas
                                                                          Ronaldo Pimentel
                                                                          BigData Divisão Aulas
                                                                          Juliana Stenico
                                                                          Physics - Energy, Power & Work
                                                                          dominique22
                                                                          Spanish: Grammar 3.2
                                                                          Selam H
                                                                          Plant Structure and Photosynthesis
                                                                          Evangeline Taylor
                                                                          Of Mice and Men
                                                                          becky_e
                                                                          Of Mice and Men
                                                                          amyk4321
                                                                          Summary of Definitions/Key Terms for the PMP Exam
                                                                          Andrea Leyden
                                                                          Religious Studies- Marriage and the family
                                                                          Emma Samieh-Tucker
                                                                          Cell Organelles and Functions
                                                                          Melinda Colby
                                                                          Factores Humanos en la Aviación
                                                                          Adriana Forero