Corpus

ver CBL

ver Linguist List Corpus

Acceso libre – Español

CORPUS ESPAÑOL. El Corpus del Español de Mark Davies (Brigham Young University, Utah, EE.UU.) abarca el período 1200-2000 y contiene 100 millones de palabras y múltiples opciones de búsqueda (modo escrito u oral, categoría de palabra, período, etc.). El corpus oral incluye casi 7 millones de palabras tomadas de de 2000 entrevistas y transcripciones.

CORDE. Corpus diacrónico del español (hasta 1975) de la RAE de más de 250 millones de palabras.

CREA. El CREA es el Corpus de Referencia del Español (oral y escrito) Actual (1975-2000) de la Real Academia Español. Incluye más de 160 millones de palabras de español americano y peninsular, oral y escrito. El 10% del corpus corresponde a transcripciones orales.

ANCORA. El AnCora es un corpus anotado del español y del catalán con 500 mil palabras para cada lengua. Está compuesto fundamentalmente por fuentes periodísticas escritas. Fue desarrollado por el Centre de Llenguatge i Computació (Universidad de Barcelona, España) y el Grupo de Procesamiento del Lenguaje Natural (Universitat Politècnica de Catalynya, España). La anotación incluye la categoría morfológica, constituyentes y funciones sintácticas, estructura argumental y papeles temáticos, etc. Cuenta con un potente buscador disponible online.

GRIAL. El corpus El Grial es una “interfaz computacional para anotación e interrogación de corpus en español” desarrollada por la Escuela de Lingüística de Valparaíso (Pontificia Universidad Católica de Valparaíso, Chile) y con dirección de Giovanni Parodi. Posee un buscador muy completo que, entre otros parámetros, permite seleccionar el modo, registro, género y temática del (sub)corpus a indagar, además del tipo de ítem (forma, lema y/o etiqueta sintáctica) a buscar. El corpus (de más de 60 millones de palabras y en desarrollo) incluye muchos corpus distintos, etiquetados morfo-sintácticamente. También pueden cargarse y anotarse (temporalmente) corpus ajenos. +info

Acceso libre – Inglés

BNC. El British National Corpus de M. Davies contiene 100 millones de palabras de inglés británico reciente (1980-1993) oral (10%) y escrito (ficción, periódicos, académico, etc.). Posee un potente buscador.

AMERICAN. El Corpus of American English contiene 450 millones de palabras (en 150 mil textos) y continúa desarrollándose. Consiste en muestras de inglés norteamericano contemporáneo (1990-actualidad) y tiene una distribución homogénea en lo temporal y en el registro (en sentido amplio: oral, ficción, revistas, periódicos y textos académicos). Es el proyecto más ambicioso de M. Davies. Posee un potente buscador.

SPLLOC. El SPLLOC es el Corpus de discurso oral de estudiantes de español hablantes nativos de inglés (Southampton, Newcastle y York University, Reino Unido). Pueden descargarse los archivos de sonido y las transcripciones. Cuenta con un buscador con varios parámetros ajustables (nivel, edad, tarea y género discursivo).

MICASE. El MICASE es el Corpus (transcripto) de inglés académico oral de la University of Michigan (EE.UU.), de casi 2 millones de palabras (152 transcripciones). Presenta un potente buscador que permite ajustar parámetros como edad, sexo, puesto académico, área científica, evento de habla, etc., y buscar una transcripción o la ocurrencia de una palabra/frase en el corpus total.

forensics

TXT. El Instituto de Lingüística Forense ofrece para descargar gratuitamente una muestra de corpus de mensajes de texto, formato que desafía la clásica distinción entre texto oral y escrito. Este subcorpus cuenta con 1000 textos en inglés provenientes de 50 participantes y muestra manifestaciones diversas de la contracción léxica típica en este medio digital. El archivo contiene un programa instalable en la computadora que permite búsquedas detalladas por palabra o por información de los hablantes (edad, género, nivel educativo).

Acceso libre – Otras lenguas

CORPUS PORTUGUÉS. El Corpus del Portugués de M. Davies abarca el período 1300-2000, y contiene 45 millones de palabras y múltiples opciones de búsqueda.

Acceso restringido – Español

LIFCACH. La Lista de Frecuencias de Palabras del Castellano de Chile, disponible para descargar, es un conjunto de 102 listas de frecuencias léxicas extraídas de los distintos subcorpora del impresionante Corpus Dinámico del Castellano de Chile (CODICACH). El CODICACH está siendo desarrollado por Scott Sadowsky (Universidad de Concepción) desde 1997 y contiene actualmente alrededor de 830 millones de palabras. Este corpus privilegia los medios de prensa escritos, y por tanto no pretende ser representativo del castellano de Chile. Sadowsky también ofrece artículos y powerpoints para descarga. La descarga pesa poco más de 6 megas.

VALESCO. El Corpus de Conversación Coloquial es un proyecto del Grupo Val.Es.Co. (Universidad de Valencia). Se trata de la trascripción de 341 horas de grabación de conversaciones informales. Pueden descargarse muestras en un archivo PDF de transcripciones del corpus o muestras en un archivo de audio (25,5 megas).

LLI. El Corpus (oral) de Referencia de la Lengua Española Contemporánea es un proyecto del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid, con dirección de Francisco Marcos Marín. El corpus oral de lengua hablada consta de 1,1 millones de palabras transliteradas en soporte informático. Pueden consultarse ejemplos de transliteraciones en el mismo portal. También se brinda información metodológica muy completa.

CEDEL2. El corpus CEDEL2 tiene actualmente 400 mil palabras, y aspira a llegar al millón pronto. Es parte del proyecto de investigación del grupo WOSLAC, con base en la Universidad Autónoma de Madrid. Este grupo estudia la adquisición del orden de palabras en la adquisición de L2 (español e inglés). El corpus está siendo confeccionado a partir de la participación desinteresada de estudiantes y hablantes nativos de todo el mundo (unos 1400 hasta ahora), especialmente de Estados Unidos. Cuando esté terminado, será puesto a disposición de la comunidad académica.

Acceso restringido – Inglés

BNC. El British National Corpus (BNC) es una colección de muestras de inglés británico contemporáneo oral y escrito, y asciende a 100 millones de palabras. Puede realizarse una búsqueda simple (sin parámetros ajustables) y visualizarse el contexto para 50 casos hallados. El componente oral del corpus (10%) se compone de transcripciones ortográficas de conversaciones informales, programas radiales, reuniones gubernamentales y de negocios, etc.

Acceso restringido – Otras lenguas

BRASILERO. El banco de portugués (brasilero) es desarrollado por el grupo de investigación brasilero Direct, del Programa de Estudos Pós-Graduados em Lingüística Aplicada e Estudos da Linguagem (LAEL) de la Pontifícia Universidade Católica de São Paulo (Brasil). El corpus contiene más de 240 millones de palabras; puede accederse online a una muestra de 1.1 millones de palabras, en el que pueden distinguirse géneros discursivos y modo oral (hay unas 200 mil palabras) o escrito.

INICIO

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s