Zusammenfassung der Ressource
Aula 10 - Pig
- MapReduce
- Abordagem de baixo nível, em
relação ao modelo mapreduce, maior
controle e desempenho
- Consome mais tempo e mais propenso a
erros na fase de implantação. Google
informeou que um dev demorava 4h para
fazer em mapreduce e 15min em pig
- Utilizado quando controle e
desempenho sao muito
importantes
- Motivação
- - MapReduce é baixo nível - MapReduce
é difícil de manter e reutilizar -
Desenvolvedores não estavam
confortáveis com MapReduce e
linguagem SQL
- DEsenvolvedores estavam
acostumados ao desenvolvimento
anterior orientado a grafos
- Necessitavam de uma solucao menos
complicada, mas que aceitasse dados
nao estruturados
- Caracteristicas
- Utilizar em grandes volumes.
algumas queries demoram até 20
segundos para iniciar.
- pode ter desempenho
superior ao map reduce
puro
- Aplicacoes
- Processamentos dados brutos
- ETL
- Pipeline de dados
- Exemplos de dados utilizados: •
Tweets • Dados de usuarios •
Notificações • Retweets •
Seguidores • Uso de SMS • Logs do
servidor • Logs de busca • Logs de
queries
- Exemplos de análises realizadas com Pig: •
Quantidade de requisições diárias • Latência
média • Quantidade de pesquisas diárias •
Distribuição geográfica • Testes A/B •
Descoberta de padrão de comportamento do
usuário • Análise de sentimento • Análise de
reputação do usuário
- Arquitetura
- Executa jobs map e reduces
- é uma lingugaem de fluxo de
dados se precisar de
estruturas diversas tem que
associar com outras linguagem
- Scripts são convertidos
para mapreduce jobs
- possui funcoes especificas, por
exemplo para ordenar pela
frequencia. algo que não existe no
mapreduce
- linguagem procedural de script
- Uso
- /scripts em linguagem Pig Latin
- Grunt shell - interativo, faz e testa
- pode utilizar local sem
enviar para o
mapreduce