Trata da representação, armazenamento,
organização e acesso a itens de informação,
como documentos,páginas Web, catálogos
online, registros estruturados e
semiestruturados, objetos multimídia etc.
(BAEZA-YATES; RIBEIRO-NETO 2013)
Trata de processos de representação,
armazenamento, busca e descoberta de
itens informação que são relevantes para
atender às necessidades do usuário
(INGWERSEN, 1992).
RI vs. recuperação
de dados
Sistema de recuperação de dados, como
um banco de dados relacional, trata de
dados que possuem estrutura e
semântica bem definidas
Um sistema de RI lida com
texto em linguagem natural
que não é bem estruturado
Tarefas
do
Usuário
Traduzir sua necessidade de
informação em uma consulta na
linguagem fornecida pelo
sistema
Especificação de um conjunto de
palavras que transmitam a
semântica da necessidade de
informação
O usuário está buscando ou
consultando informações de seu
interesse
Problema
É saber não só como extrair a
informação dos documentos,
mas também saber como
utilizá-la para decidir quanto à
sua relevância
Objetivo Principal
De acordo com BAEZA-YATES;
RIBEIRO-NETO (2013) Recuperar todos os
documentos que são relevantes à
necessidade de informação do usuário e
recuperar o menor número possível de
documentos irrelevantes
Representação Lógica
dos Documentos
Pode ser feita a partir de todos os termos do
documento, ou considerando-se apenas termos
selecionados por especialistas humanos
chamados de vocabulário controlado.
Nas primeiras implementações dos SRI, por limitações
computacionais, utilizava-se um conjunto menor de palavras
selecionadas por especialistas humanos. Nesse caso,
produzia-se uma visão lógica mais concisa dos documentos,
essa forma pode levar a uma recuperação de informação de
baixa qualidade.
Processos de R.I
Segundo BONASSA, M. D (2009): O processo de RI como
sendo a tarefa de encontrar documentos relevantes que
atendam às necessidades de informação de um usuário.
Definir o que é o documento a ser recuperado
Definir a forma de consulta
Definir o subconjunto de respostas
Definir a forma de apresentação do resultado
Modelos
clássicos
Booleano
De acordo com BAEZA-YATES;
RIBEIRO-NETO (2013) : É uma
recuperação simples baseado
na teoria de conjuntos e na
álgebra Booleana.
O modelo é bastante intuitivo e
possui uma semântica precisa,
outra característica importante é
que cada documento segundo este
modelo, seja relevante ou não
relevante.
Uma consulta em um modelo
booleano é composta por
termos de indexação ligados
por três conectivos Booleanos:
not, and e or.
Vetorial
Calcular o grau de
similaridade entre cada
documento armazenado
armazenado no sistema
sistema e a consulta do
usuário
O documento é representado
como um vetor de termos, sendo
que cada termo (palavra) recebe
um valor associado que indica o
grau de importância (relevância)
deste no documento ou na coleção
toda.
Modelo vetorial é uma boa
estratégia de ranqueamento
para coleções genéricas
[razoável e robusto para
comparação]
Probabilístico
A ordenação dos documentos é
calculada pesando
dinamicamente os termos da
consulta relativa aos
documentos e baseia-se no
princípio da ordenação
probabilística.
O usuário pode vê os
documentos recuperados
e decidir quais são
relevantes e quais não
são.
Metabuscadores
São servidores WEB que enviam uma
determinada consulta para diversas máquinas
de buscas, diretórios WEB e outros bancos de
dados, coletam as respostas e as combinam
em uma única lista ranqueada. ( BAEZA-YATES;
RIBEIRO-NETO 2013)
Características
Seu objetivo se baseia na
otimização de tempos de
respostas
Se diferem uns dos outros na
maneira como o ranking é
utilizado (se realizado) na lista
combinada de resultados
Não tem uma base de
dados própria
Pode economizar tempo e
usar vários motores de
busca de uma só vez
Vale ressaltar que não é muito clara
sobre os critérios utilizados pelos vários
candidatos a múltiplas para gerenciar
seus resultados
Exemplos
Diretórios
Na navegação, os usuários desejam
investir algum tempo explorando o
espaço de documentos, procurando por
referências interessantes ou mesmo
inesperadas. (BAEZA-YATES;
RIBEIRO-NETO, 2013)
São os precursores da busca
na Internet, na época em que
ainda não existiam os
buscadores por robôs como o
Google
O objetivo é permitir ao
usuário encontrar sites que
desejar, buscando por
categorias, e não por
palavras-chave
Tem vantagem que
normalmente a informação é
valiosa.
Uma das desvantagens é a cobertura
da Web provida pelos diretórios é
muito baixa e A classificação não é
sempre especializada o suficiente
Exemplos
Metadados
São dados sobre os dados.
Contém informação sobre a
organização dos dados, seus
domínios e relacionamentos.
( BAEZA-YATES; RIBEIRO
NETO, 2013)
São fundamentais para a
redução dos riscos e o
aumento das chances de
sobrevivência da
informação digital
Fundamentais para o provimento
da interoperabilidade necessária à
explosão dos recursos de
informação na Internet.
Exemplos
MARC
DUBLIN
CORE
MOTORES DE
BUSCA
Os motores de busca para a Internet
são programas que, dadas
determinadas palavras-chave ou
expressões, por um usuário, devolvem
uma lista de hiper-ligações para
documentos onde essas palavras
existem.
COMPONENTES: Batedores,
Repositório, Indexador,
Ordenador E Apresentador
Para Peixoto (2008): os motores de busca utilizam
software conhecido como 'aranhas' ou ‘robots’ que
percorrem ‘toda’ a Internet em busca da informação
(...) que se pretende (...) sempre que se introduz
uma palavra ou um conjunto de palavras
Exemplo
Google
Bing
Estratégias, recursos e filtros
de busca
A estratégia de busca pode ser definida como uma técnica ou
conjunto de regras para tornar possível o encontro entre uma
pergunta formulada e a informação armazenada em uma
base de dados. (LOPES, 2002).
Os recursos de Buscas são: Truncamento:
Permite a utilização da raiz da palavra para
recuperar todas as possibilidades de expansão.
Aspas: Usadas para indicar termos compostos.
Parênteses: Usado para estabelecer a ordem
do processo de pesquisa e separar os conjuntos
de termos
Segundo ROWLEY(2002) outros recursos de buscais usuais
como: recursos de configuração, seleção de termos de busca,
entrada de termos de busca, combinação dos termos de busca,
especificação de campos, exibição dos resultados das buscas,
exibição dos registros, gerenciamento das buscas, opções
avançadas de exibição, consultas conjugadas ou combinadas e
exibição do tesauro.
Exemplos
Google
JusBrasil
Avaliação de RI - revocação
e precisão
A revocação determina se todos os
documentos relevantes foram
recuperados. (MINNIE; SRINIVASAN,
2011, p. 121).
A precisão trata da razão do número de
documentos atinentes recuperados sobre o total de
documentos recuperados.
A eficiência de um recurso de busca é
mensurada a partir de duas métricas:
precisão e revocação.
Não é possível calcular a revocação, assim como
não é possível calcular o número de páginas
relevantes da web.
RI na WEB:
especificidade/características e
arquitetura dos sistemas
Características: A coleção da Web é composta por documentos (ou
páginas) distribuídos por milhões de sites conectados por hiperlinks,
isto é, links que associam um trecho de texto em uma página a outras
páginas da Web. É grande o tamanho da coleção e do volume de
consultas de usuários submetido diariamente. Em uma coleção muito
grande, prever a relevância é muito mais difícil. (BAEZA-YATES;
RIBEIRO-NETO, 2013)
Arquitetura dos sistemas
Muitas máquinas de busca usam um
arquitetura centralizada de
coletor-indexador, que percorrem a WEB
enviando páginas novas ou atualizadas ao
servidor principal no qual elas são
indexadas. As máquinas de busca atuais
usam uma arquitetura paralela massiva e
baseada em clusters. Devido ao grande
tamanho da coleção. (MAAREK, YOELLE)