RECUPERAÇÃO DA INFORMAÇÃO

Definição
1. Trata da representação, armazenamento, organização e acesso a itens de informação, como documentos,páginas Web, catálogos online, registros estruturados e semiestruturados, objetos multimídia etc. (BAEZA-YATES; RIBEIRO-NETO 2013)
  1. Trata de processos de representação, armazenamento, busca e descoberta de itens informação que são relevantes para atender às necessidades do usuário (INGWERSEN, 1992).
RI vs. recuperação de dados
1. Sistema de recuperação de dados, como um banco de dados relacional, trata de dados que possuem estrutura e semântica bem definidas
2. Um sistema de RI lida com texto em linguagem natural que não é bem estruturado
Tarefas do Usuário
1. Traduzir sua necessidade de informação em uma consulta na linguagem fornecida pelo sistema
2. Especificação de um conjunto de palavras que transmitam a semântica da necessidade de informação
3. O usuário está buscando ou consultando informações de seu interesse
Problema
1. É saber não só como extrair a informação dos documentos, mas também saber como utilizá-la para decidir quanto à sua relevância
  1. Objetivo Principal
    1. De acordo com BAEZA-YATES; RIBEIRO-NETO (2013) Recuperar todos os documentos que são relevantes à necessidade de informação do usuário e recuperar o menor número possível de documentos irrelevantes
Representação Lógica dos Documentos
1. Pode ser feita a partir de todos os termos do documento, ou considerando-se apenas termos selecionados por especialistas humanos chamados de vocabulário controlado.
  1. Nas primeiras implementações dos SRI, por limitações computacionais, utilizava-se um conjunto menor de palavras selecionadas por especialistas humanos. Nesse caso, produzia-se uma visão lógica mais concisa dos documentos, essa forma pode levar a uma recuperação de informação de baixa qualidade.
Processos de R.I
1. Segundo BONASSA, M. D (2009): O processo de RI como sendo a tarefa de encontrar documentos relevantes que atendam às necessidades de informação de um usuário.
2. Definir o que é o documento a ser recuperado
3. Definir a forma de consulta
4. Definir o subconjunto de respostas
5. Definir a forma de apresentação do resultado
Modelos clássicos
1. Booleano
  1. De acordo com BAEZA-YATES; RIBEIRO-NETO (2013) : É uma recuperação simples baseado na teoria de conjuntos e na álgebra Booleana.
  2. O modelo é bastante intuitivo e possui uma semântica precisa, outra característica importante é que cada documento segundo este modelo, seja relevante ou não relevante.
  3. Uma consulta em um modelo booleano é composta por termos de indexação ligados por três conectivos Booleanos: not, and e or.
2. Vetorial
  1. Calcular o grau de similaridade entre cada documento armazenado armazenado no sistema sistema e a consulta do usuário
  2. O documento é representado como um vetor de termos, sendo que cada termo (palavra) recebe um valor associado que indica o grau de importância (relevância) deste no documento ou na coleção toda.
  3. Modelo vetorial é uma boa estratégia de ranqueamento para coleções genéricas [razoável e robusto para comparação]
3. Probabilístico
  1. A ordenação dos documentos é calculada pesando dinamicamente os termos da consulta relativa aos documentos e baseia-se no princípio da ordenação probabilística.
  2. O usuário pode vê os documentos recuperados e decidir quais são relevantes e quais não são.
Metabuscadores
1. São servidores WEB que enviam uma determinada consulta para diversas máquinas de buscas, diretórios WEB e outros bancos de dados, coletam as respostas e as combinam em uma única lista ranqueada. ( BAEZA-YATES; RIBEIRO-NETO 2013)
  1. Características
    1. Seu objetivo se baseia na otimização de tempos de respostas
    2. Se diferem uns dos outros na maneira como o ranking é utilizado (se realizado) na lista combinada de resultados
    3. Não tem uma base de dados própria
    4. Pode economizar tempo e usar vários motores de busca de uma só vez
    5. Vale ressaltar que não é muito clara sobre os critérios utilizados pelos vários candidatos a múltiplas para gerenciar seus resultados
  2. Exemplos
Diretórios
1. Na navegação, os usuários desejam investir algum tempo explorando o espaço de documentos, procurando por referências interessantes ou mesmo inesperadas. (BAEZA-YATES; RIBEIRO-NETO, 2013)
2. São os precursores da busca na Internet, na época em que ainda não existiam os buscadores por robôs como o Google
3. O objetivo é permitir ao usuário encontrar sites que desejar, buscando por categorias, e não por palavras-chave
4. Tem vantagem que normalmente a informação é valiosa.
5. Uma das desvantagens é a cobertura da Web provida pelos diretórios é muito baixa e A classificação não é sempre especializada o suficiente
6. Exemplos
Metadados
1. São dados sobre os dados. Contém informação sobre a organização dos dados, seus domínios e relacionamentos. ( BAEZA-YATES; RIBEIRO NETO, 2013)
  1. São fundamentais para a redução dos riscos e o aumento das chances de sobrevivência da informação digital
  2. Fundamentais para o provimento da interoperabilidade necessária à explosão dos recursos de informação na Internet.
  3. Exemplos
    1. MARC
    2. DUBLIN CORE
MOTORES DE BUSCA
1. Os motores de busca para a Internet são programas que, dadas determinadas palavras-chave ou expressões, por um usuário, devolvem uma lista de hiper-ligações para documentos onde essas palavras existem.
  1. COMPONENTES: Batedores, Repositório, Indexador, Ordenador E Apresentador
    1. Para Peixoto (2008): os motores de busca utilizam software conhecido como 'aranhas' ou ‘robots’ que percorrem ‘toda’ a Internet em busca da informação (...) que se pretende (...) sempre que se introduz uma palavra ou um conjunto de palavras
  2. Exemplo
    1. Google
    2. Bing
Estratégias, recursos e filtros de busca
1. A estratégia de busca pode ser definida como uma técnica ou conjunto de regras para tornar possível o encontro entre uma pergunta formulada e a informação armazenada em uma base de dados. (LOPES, 2002).
  1. Os recursos de Buscas são: Truncamento: Permite a utilização da raiz da palavra para recuperar todas as possibilidades de expansão. Aspas: Usadas para indicar termos compostos. Parênteses: Usado para estabelecer a ordem do processo de pesquisa e separar os conjuntos de termos
    1. Segundo ROWLEY(2002) outros recursos de buscais usuais como: recursos de configuração, seleção de termos de busca, entrada de termos de busca, combinação dos termos de busca, especificação de campos, exibição dos resultados das buscas, exibição dos registros, gerenciamento das buscas, opções avançadas de exibição, consultas conjugadas ou combinadas e exibição do tesauro.
2. Exemplos
  1. Google
  2. JusBrasil
Avaliação de RI - revocação e precisão
1. A revocação determina se todos os documentos relevantes foram recuperados. (MINNIE; SRINIVASAN, 2011, p. 121).
  1. A precisão trata da razão do número de documentos atinentes recuperados sobre o total de documentos recuperados.
    1. A eficiência de um recurso de busca é mensurada a partir de duas métricas: precisão e revocação.
  2. Não é possível calcular a revocação, assim como não é possível calcular o número de páginas relevantes da web.
RI na WEB: especificidade/características e arquitetura dos sistemas
1. Características: A coleção da Web é composta por documentos (ou páginas) distribuídos por milhões de sites conectados por hiperlinks, isto é, links que associam um trecho de texto em uma página a outras páginas da Web. É grande o tamanho da coleção e do volume de consultas de usuários submetido diariamente. Em uma coleção muito grande, prever a relevância é muito mais difícil. (BAEZA-YATES; RIBEIRO-NETO, 2013)
  1. Arquitetura dos sistemas
    1. Muitas máquinas de busca usam um arquitetura centralizada de coletor-indexador, que percorrem a WEB enviando páginas novas ou atualizadas ao servidor principal no qual elas são indexadas. As máquinas de busca atuais usam uma arquitetura paralela massiva e baseada em clusters. Devido ao grande tamanho da coleção. (MAAREK, YOELLE)

Next up

RECUPERAÇÃO DA INFORMAÇÃO

Description

Resource summary

Media attachments

Similar

	Created by Jonatas Edison about 8 years ago