Conceitos básicos - 000001

Descripción

Resumo Conceitos básicos de bigdata. O que é, motivação e ferramentas.
Luiz Alberto Nunes
Apunte por Luiz Alberto Nunes, actualizado hace más de 1 año
Luiz Alberto Nunes
Creado por Luiz Alberto Nunes hace más de 7 años
19
0

Resumen del Recurso

Página 1

BigData    Definições         Grande volume de dados produzidos.         Dados gerados em alta velocidade.    Caracteristicas             Diferentes Tipos de dados.         Diferentes Origens de dados.             Dado vs Informação         Dados             OQE                 códigos que constituem a matéria prima da informação.                 informação não tratada             Caracteristicas                 não podem transmitir uma mensagem ou representar algum conhecimento.         Informação             OQE                 Informações são dados tratados.                 resultado do processamento de dados.                     Conjuto de dados >> Processamento >> Informação             Caracteristicas                 têm significado                 podem ser tomadas decisões ou fazer afirmações considerando as informações.         Exemplo:             Dados:                 Grande, Azul, Casa,..             Informação                 A casa azul é grande.         Conclusão:             Dado é diferente de informção.         Refefências:             https://www.binapratica.com.br/dados-x-informacao             https://pt.slideshare.net/erosaugusto/dados-x-informao7             http://arthurgiroldo.blogspot.com.br/2012/04/dados-x-informacao.html             http://www.luis.blog.br/qual-a-diferenca-entre-dados-informacao-e-conhecimento.aspx     Importância     4Vs         Componenes técnicos             Volume(25%) - Grande quantidade de dados gerados.             Variedade(69%) - Variedade de origens e formatos dos dados(logs, texto streming, SGBDs, etc.             Velocidade(6%) - Os dados são gerados em grandes quantidades(sensores, dados de nabegação, etc);         Veracidade - Confianças nos dados.     Valor             Tecnologias             Hadoop         Ecosistema Hadoop         NoSql         Spark   Tópicos estudos a parate kerberos DFS

Página 2

Hadoop     OQE         È um framework open source que facilita o processamento em lagar         escala de um grande volume de dados usando um cluster com varias         máquinas de baixo custo.     Caract.         Foi escrito na linguagem java e baisea-se no google file sistem(GFS).         Permite a computação distribuida mas com baixo custo.         Escalável (Horizontalmente)         Tolerante a falhas         Flexível     Módulos            Os principais módulos são: HDFS, MapReduce e YARN.             HDFS                 OQE                     Sistema de arquivos distribuidos de alta velocidade e que                     permite rápida transferência de dados entre os nodes Hadoop.                     Foi desenvolvido utilizando como base o (DFS)                 Caract.                     Tolerancia a falhas e recuperação automática.                     Pode rodar em máquinas com sistema operacionais diferentes.                     Escalabilidade                     Confiabiliade - mantém várias cópias dos dados.                     Segurança é feita com o kerberos.                     E hotimizado para o amarzenamento de grandes arquivos e tem um tempo de leitura de um conjunto de dados inteiro e não apenas um registro.                     Foi pensado para ser ótimo em WORM                     Cluster HDFS                     Tipos de noldes.                         Namenode(Master node')                             Gerencia a estrutura do sistema e os metadados dos arquivos e diretórios.                         Datanode(Work node)                             Armazena e buscas os blocos de dados.                             Reporta ao namenode a lista de blocos armazenados.             MapReduce                 OQE                     Modelo de programação.                 Caract.                     Processo computacional que utiliza chave e valores.                     Usa força bruta - todo o conjunto de dados é processado em cada query.                     Modelo de processamento batch                     Flexibilidade - Pode pracessar vários tipos de arquivo, dados estruturados ou não estruturado.                     Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros.                     Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig).              YARN - Agendador de jobs e gerenciador de recursos               Pricipais componetes - O HDFS e o MapReduce podes ser considerados os componentes mais importantes do framework.  

Mostrar resumen completo Ocultar resumen completo

Similar

Italiano - Vocabulario Básico
maya velasquez
Test sobre la Organización del Estado de Los Reyes Católicos
maya velasquez
Disoluciones
Victor Rodriguez
Capitales del Mundo y Curiosidades
maya velasquez
Normatividad Institucional y Estandares del Servicio al Cliente
Juliana Gutierrez
Concepto y funciones del área de Recursos Humanos
Erika Caro
Vocabulario Inglés - Tema 2
tanianicolasizqu
Códigos de la principales aerolíneas
Diego Santos
Cambios funcionales en el sistema renal
Martín López Barrientos
Mapa mental inteligencia emocional
Alexandra A
Currículum de la Educación Infantil
Montserrat Gorrín Méndez