Área interdisciplinar de pesquisa dedicada ao estudo de modelos estatísticos ou baseados em regras (ruled-based)para modelagem da linguagem natural a partir de uma perspectiva computacional.
Modelagem da linguagem natural
Áreas de Estudo
Sentiment Analysis
Anotações:
Conjunto de técnicas tipicamente voltadas para a classificação de textos de acordo com a relevância afetiva e a exploração de opinião de consumidores ou usuários voltadas para análise de mercado.
Anotação de valência
Positiva ou negativa
Rotulação de emoções
Também conhecido como
Opinion Mining
Análise
Nível Documento
Anotações:
Análise de todos o documento e classificação da opinião expressa pelo documento como positiva ou negativa.
Nível de Sentença
Anotações:
Classificação de sentimento de sentenças curtas.
Nível de Aspecto
Anotações:
Classificação de sentimentos em relação a aspectos específicos das entidades de interesse. Exemplo: "A qualidade da voz neste telefone não é boa, mas a duração da bateria é muito longa."
Abordagem
Baseada em Léxicos
Dicionário de Palavras
Sentimento foi manualmente anotado
WordNet
Aprendizado de Máquina
Aprendizagem Supervisionada
Anotações:
Cada amostra da base possui um conjunto de "features".
Modelo correlaciona "features" aos rótulos.
Baseado no modelo, novas amostras são classificadas de acordo com os rótulos existentes.
Base de treinamento rotulada
Anotações:
Tipicamente sentenças ou documentos
"Features" linguísticos
Bag of Words
Anotações:
Presença e frequência de palavras (individuais ou n-grams) -> Bag of Words (BoW)
Parts of Speech
Anotações:
PoS - Adjetivos, substantivos, advérbios.
Negações
Não Supervisionada
Anotações:
As "features" são utilizadas para determinar a similaridade entre sentenças, ajudando a identificar categorias.