Abordagem de baixo nível, em
relação ao modelo mapreduce, maior
controle e desempenho
Consome mais tempo e mais propenso a
erros na fase de implantação. Google
informeou que um dev demorava 4h para
fazer em mapreduce e 15min em pig
Utilizado quando controle e
desempenho sao muito
importantes
Motivação
- MapReduce é baixo nível - MapReduce
é difícil de manter e reutilizar -
Desenvolvedores não estavam
confortáveis com MapReduce e
linguagem SQL
DEsenvolvedores estavam
acostumados ao desenvolvimento
anterior orientado a grafos
Necessitavam de uma solucao menos
complicada, mas que aceitasse dados
nao estruturados
Caracteristicas
Utilizar em grandes volumes.
algumas queries demoram até 20
segundos para iniciar.
pode ter desempenho
superior ao map reduce
puro
Aplicacoes
Processamentos dados brutos
ETL
Pipeline de dados
Exemplos de dados utilizados: •
Tweets • Dados de usuarios •
Notificações • Retweets •
Seguidores • Uso de SMS • Logs do
servidor • Logs de busca • Logs de
queries
Exemplos de análises realizadas com Pig: •
Quantidade de requisições diárias • Latência
média • Quantidade de pesquisas diárias •
Distribuição geográfica • Testes A/B •
Descoberta de padrão de comportamento do
usuário • Análise de sentimento • Análise de
reputação do usuário
Arquitetura
Executa jobs map e reduces
é uma lingugaem de fluxo de
dados se precisar de
estruturas diversas tem que
associar com outras linguagem
Scripts são convertidos
para mapreduce jobs
possui funcoes especificas, por
exemplo para ordenar pela
frequencia. algo que não existe no
mapreduce