Son conjuntos extensos y ordenados de datos o textos
que han sido compilados según una serie de criterios y
que son accesibles y manejables a través de
programas digitales para el estudio lingüístico
Sirven para estudiar la lengua en
todos sus niveles:
fonético-fonológico, morfosintáctico,
léxico-semántico y pragmático
La lingüística de corpus estudia
empíricamente las lenguas a
partir de grandes repertorios de
textos
Facilita y enriquece el trabajo de diferentes
disciplinas asociadas a la lingüística
la sociolingüística, pues los
corpus son obtenidos en
circunstancias reales y, por lo
general, están estratificados
según factores sociales (edad,
sexo, nivel sociocultural, etc.)
La psicolingüística, pues
se puede registar el
proceso de adquisición
de la gramática
La lexicografía, pues se puede
estudiar la frecuencia de uso de las
lexías para luego registrar estos usos
en un diccionario
Los estudios de traducción, pues se
pueden generar matrices de
concordancia y ejemplos para
diccionarios bilingües o traductores
digitales
Lingüística forense, pues
permite reconocer patrones e
identificar autores de textos
que pueden tener relevancia
jurídica (notas de chantaje o
suicidio, por ejemplo)
La lingüística aplicada usa este tipo de
herramientas para mejorar la descripción de la
lengua y resolver problemas prácticos
Los corpus pueden ser
clasificados según diferentes
patrones. Algunos tipos de corpus
son:
Anotados: textos con determinadas
informaciones o etiquetas que lo
enriquecen (alargamientos,
vacilaciones, etc.)
En bruto: textos sin formato,
sin información adicional ni
códigos
Lematizados: textos en formatos que permiten
la búsqueda de palabras o categorías y sus
contextos de aparición
El punto de partida fue la
aparición del Brown Corpus
con un millón de palabras
del inglés americano
Principios básicos del diseño de corpus
Deben ser representativos, es
decir, deben considerar las
variantes demográficas, deben
ser extensos
Deben ser balanceados, pueden tener
diferentes estilos y tópicos (formales e
informales, orales y escritos,
entrevistas, lecturas, etc.)
Deben tener un criterio: fecha, temas,
registros, método de recolección,
características de los hablantes
En un corpus pueden buscarse:
Palabras
Frases
Locuciones
Concordancias
Preferencias semánticas
Elementos prosódicos del discuso
Muchos otros elementos
lingüísticos
El estudio de corpus asistido por
computadora tiene dos principios