Zusammenfassung der Ressource
Corpus
- Principales parámetros para
clasificar los corpus
- La modalidad de la
lengua
- Tipos
- Escrita
- conformados exclusivamente por
muestras de lengua escrita.
- Oral
- únicamente recogen
muestras de lengua
hablada
- Transcripciones
ortográficas de
grabaciones
- Grabaciones (corpus orales),
empleadas en fonética y
tecnologías del habla
- Mixto
- combinan ambas modalidades de lengua, aunque
siempre favoreciendo la lengua escrita, ya que su
obtención es menos costosa que la de la lengua oral
que, además, requiere un proceso posterior de
transcripción de las grabaciones.
- El número de lenguas a que
pertenecen los textos
- corpus bilingües o
multilingües
- Corpus comparables
(“paired texts”)
- Corpus paralelos
(“bi-texts”):
- Corpus alineados:
- corpus monolingües
- El tamaño o cantidad
- Corpus grandes
- Corpus equilibrados
- Corpus piramidales
- Corpus léxicos
(“sample corpus”)
- Los límites del corpus
- Los corpus cerrados
- Los corpus abiertos o
corpus monitor,
- Según la especificidad
- corpus generales o de referencia
- corpus especializados
- Los corpus genéricos
- Corpus canónicos
- El período temporal
- corpus periódicos o
cronológicos
- corpus diacrónicos o
históricos
- Corpus sincrónicos:
- El tratamiento aplicado
- Corpus
simples,
- Corpus
verticales
- Corpus codificados o
anotados:
- Corpus analizados
morfológicamente
(“tagged”)
- Corpus “parentizados”:
- Corpus analizados
(“treebanks”)