Conceitos básicos - 000001

Beschreibung

Resumo Conceitos básicos de bigdata. O que é, motivação e ferramentas.
Luiz Alberto Nunes
Notiz von Luiz Alberto Nunes, aktualisiert more than 1 year ago
Luiz Alberto Nunes
Erstellt von Luiz Alberto Nunes vor fast 7 Jahre
19
0

Zusammenfassung der Ressource

Seite 1

BigData    Definições         Grande volume de dados produzidos.         Dados gerados em alta velocidade.    Caracteristicas             Diferentes Tipos de dados.         Diferentes Origens de dados.             Dado vs Informação         Dados             OQE                 códigos que constituem a matéria prima da informação.                 informação não tratada             Caracteristicas                 não podem transmitir uma mensagem ou representar algum conhecimento.         Informação             OQE                 Informações são dados tratados.                 resultado do processamento de dados.                     Conjuto de dados >> Processamento >> Informação             Caracteristicas                 têm significado                 podem ser tomadas decisões ou fazer afirmações considerando as informações.         Exemplo:             Dados:                 Grande, Azul, Casa,..             Informação                 A casa azul é grande.         Conclusão:             Dado é diferente de informção.         Refefências:             https://www.binapratica.com.br/dados-x-informacao             https://pt.slideshare.net/erosaugusto/dados-x-informao7             http://arthurgiroldo.blogspot.com.br/2012/04/dados-x-informacao.html             http://www.luis.blog.br/qual-a-diferenca-entre-dados-informacao-e-conhecimento.aspx     Importância     4Vs         Componenes técnicos             Volume(25%) - Grande quantidade de dados gerados.             Variedade(69%) - Variedade de origens e formatos dos dados(logs, texto streming, SGBDs, etc.             Velocidade(6%) - Os dados são gerados em grandes quantidades(sensores, dados de nabegação, etc);         Veracidade - Confianças nos dados.     Valor             Tecnologias             Hadoop         Ecosistema Hadoop         NoSql         Spark   Tópicos estudos a parate kerberos DFS

Seite 2

Hadoop     OQE         È um framework open source que facilita o processamento em lagar         escala de um grande volume de dados usando um cluster com varias         máquinas de baixo custo.     Caract.         Foi escrito na linguagem java e baisea-se no google file sistem(GFS).         Permite a computação distribuida mas com baixo custo.         Escalável (Horizontalmente)         Tolerante a falhas         Flexível     Módulos            Os principais módulos são: HDFS, MapReduce e YARN.             HDFS                 OQE                     Sistema de arquivos distribuidos de alta velocidade e que                     permite rápida transferência de dados entre os nodes Hadoop.                     Foi desenvolvido utilizando como base o (DFS)                 Caract.                     Tolerancia a falhas e recuperação automática.                     Pode rodar em máquinas com sistema operacionais diferentes.                     Escalabilidade                     Confiabiliade - mantém várias cópias dos dados.                     Segurança é feita com o kerberos.                     E hotimizado para o amarzenamento de grandes arquivos e tem um tempo de leitura de um conjunto de dados inteiro e não apenas um registro.                     Foi pensado para ser ótimo em WORM                     Cluster HDFS                     Tipos de noldes.                         Namenode(Master node')                             Gerencia a estrutura do sistema e os metadados dos arquivos e diretórios.                         Datanode(Work node)                             Armazena e buscas os blocos de dados.                             Reporta ao namenode a lista de blocos armazenados.             MapReduce                 OQE                     Modelo de programação.                 Caract.                     Processo computacional que utiliza chave e valores.                     Usa força bruta - todo o conjunto de dados é processado em cada query.                     Modelo de processamento batch                     Flexibilidade - Pode pracessar vários tipos de arquivo, dados estruturados ou não estruturado.                     Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros.                     Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig).              YARN - Agendador de jobs e gerenciador de recursos               Pricipais componetes - O HDFS e o MapReduce podes ser considerados os componentes mais importantes do framework.  

Zusammenfassung anzeigen Zusammenfassung ausblenden

ähnlicher Inhalt

L' offre - Phrases - Chapitre 3
Gaelle Bourgeois
Zivilrecht - Schuldrecht Streitigkeiten
myJurazone
Können Sie die Flosse der Airline zuordnen?
B G
Lerntypen - Bestimmung
Laura Overhoff
U6 Bildbearbeitung
Lena A.
Euro-FH // Zusammenfassung SOPS2
Robert Paul
KORRE - Megaprüfungsfragen
Martina Brunner
Vetie- Innere 2017
Ju Pi
Vetie Reprospaß2
Tropsi B
Vetie- Berufsrecht-Fragensammlung 2013-2017
Ju Pi
Vetie Fleisch 2021
Mascha K.