Zusammenfassung der Ressource
CORPUS
- Son conjuntos extensos y ordenados de datos o textos
que han sido compilados según una serie de criterios y
que son accesibles y manejables a través de
programas digitales para el estudio lingüístico
- Sirven para estudiar la lengua en
todos sus niveles:
fonético-fonológico, morfosintáctico,
léxico-semántico y pragmático
- La lingüística de corpus estudia
empíricamente las lenguas a
partir de grandes repertorios de
textos
- Facilita y enriquece el trabajo de diferentes
disciplinas asociadas a la lingüística
- la sociolingüística, pues los
corpus son obtenidos en
circunstancias reales y, por lo
general, están estratificados
según factores sociales (edad,
sexo, nivel sociocultural, etc.)
- La psicolingüística, pues
se puede registar el
proceso de adquisición
de la gramática
- La lexicografía, pues se puede
estudiar la frecuencia de uso de las
lexías para luego registrar estos usos
en un diccionario
- Los estudios de traducción, pues se
pueden generar matrices de
concordancia y ejemplos para
diccionarios bilingües o traductores
digitales
- Lingüística forense, pues
permite reconocer patrones e
identificar autores de textos
que pueden tener relevancia
jurídica (notas de chantaje o
suicidio, por ejemplo)
- La lingüística aplicada usa este tipo de
herramientas para mejorar la descripción de la
lengua y resolver problemas prácticos
- Los corpus pueden ser
clasificados según diferentes
patrones. Algunos tipos de corpus
son:
- Anotados: textos con determinadas
informaciones o etiquetas que lo
enriquecen (alargamientos,
vacilaciones, etc.)
- En bruto: textos sin formato,
sin información adicional ni
códigos
- Lematizados: textos en formatos que permiten
la búsqueda de palabras o categorías y sus
contextos de aparición
- El punto de partida fue la
aparición del Brown Corpus
con un millón de palabras
del inglés americano
- Principios básicos del diseño de corpus
- Deben ser representativos, es
decir, deben considerar las
variantes demográficas, deben
ser extensos
- Deben ser balanceados, pueden tener
diferentes estilos y tópicos (formales e
informales, orales y escritos,
entrevistas, lecturas, etc.)
- Deben tener un criterio: fecha, temas,
registros, método de recolección,
características de los hablantes
- En un corpus pueden buscarse:
- Palabras
- Frases
- Locuciones
- Concordancias
- Preferencias semánticas
- Elementos prosódicos del discuso
- Muchos otros elementos
lingüísticos
- El estudio de corpus asistido por
computadora tiene dos principios
- El observador no debe influir en lo
que observa
- Los eventos repetidos son significativos