“Tesoro Lexicográfico” (RAE) online

Incluí en enlaces-diccionarios el Nuevo Tesoro Lexicográfico de la Lengua Española de la RAE. Es una base de datos con los diccionarios de la RAE desde 1726 hasta 1992, incluyendo los diccionarios de autoridades y los diccionarios historicos. La búsqueda de lemas permite elegir los diccionarios o períodos, y arroja la entrada escaneada de los diccionarios correspondientes. Más abajo, la entrada (parcial) de “lengua” en el diccionario de 1734:

Corpus de inglés académico oral de la Universidad de Michigan

El Corpus MICASE (de inglés académico oral transcripto) del Instituto de Inglés de la Universidad de Michigan -y del cual hablé en algún post anterior- incorporó ahora un video (que toma unos cuantos minutos en cargarse y amenaza con colapsar las computadoras de mediana edad) y una presentación powerpoint (en PDF) que explican cómo utilizar el corpus online, cómo buscar en los resultados, y cómo crear materiales didácticos a partir de los hallazgos. Lo incorporé de forma permanente a los enlaces. Fuente: Linguist list y Corpora list.

Posteriormente, se subió el video a youtube, en 5 partes (que suman unos 50 minutos) de buena calidad. Esta es la primera parte:

Las demas partes pueden verse cliqueando aquí: parte 2, parte 3, parte 4, parte 5.

FreeLing: programa informático gratuito de análisis lingüístico

FreeLing 2.0 es un programa informático gratuito de análisis lingüístico. Está desarrollado por el Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) de la Universitat Politècnica de Catalunya (UPC). Permite múltiples funciones, como división en oraciones, lematización, etc., para español, catalán, gallego, italiano e inglés (posee diccionarios específicos para cada lengua), y funciona bajo sistema operativo Linux. La página web es muy explicativa y el programa puede probarse (demo) online. Fuente: Corpora list.

Portales: Portal del hispanismo, diccionario de partículas del español y textos digitales del CSIC

 

He agregado a enlaces algunos portales españoles interesantes. 

 

HISPANISMO. El Portal del Hispanismo del Instituto Cervantes incluye numerosos recursos para los lingüistas hispánicos (y también para estudiosos de literatura hispánica): agenda de congresos, actas de congresos para descargar, base de datos de hispanistas y centros de investigación en el mundo (con buscador), foro de discusión, oferta de becas, premios y trabajo, tesis doctorales sobre “temas hispánicos”, enlaces, etc.

 

PARTICULAS. Diccionario de Partículas del Español. Proyecto dirigido por Antonio Briz (Universidad de Valencia). Presenta datos de mucha utilidad (definición, ejemplos completos del español en uso, prosodia y puntuación, usos, posición, sintaxis, registro, etc.) de partículas discursivas del español.

 

CSIC DIGITAL. Acceso a documentos digitales producidos por el Consejo Superior de Investigaciones Científicas (CSIC, España). Posee un buscador por términos clave, autor, título, materia y fecha.

Lingüística de corpus: portales y corpus Ancora (Barcelona) y Grial (Chile)

Estos días incorporé a los enlaces a corpus cuatro portales que me han parecido muy interesantes (ver más abajo). En particular, resulta impresionante el trabajo de investigación que está llevando a cabo la Escuela de Lingüística de Valparaíso y su corpus-de-corpus Grial, proyecto dirigido por Giovanni Parodi

 

CBL. Portal muy completo de enlaces actualizados en el área de Lingüística de Corpus destinado a la Lingüística Aplicada. Esto significa que, a pesar de ser riguroso, no es un portal técnico para lingüistas computacionales exclusivamente. Actualizado por David Lee (Departamento de Inglés y Comunicación, Universidad de la Ciudad de Hong Kong).

 

DAVIES. Página web de Mark Davies, profesor de Lingüística de Corpus del Departamento de Lingüística e Inglés de la Universidad Brigham Young (Utah). Davies fue también profesor de Lingüística Española. Mantiene numerosos y útiles corpus: del español, del portugués, del inglés americano y británico (todos estos incluidos en mis enlaces), además de un corpus diacrónico del inglés y un corpus de la revista Time. Pueden descargarse casi todos sus artículos.

 

ANCORA. El AnCora es un corpus anotado del español y del catalán con 500 mil palabras para cada lengua. Fue desarrollado por el Centre de Llenguatge i Computació (Universidad de Barcelona) y el Grupo de Procesamiento del Lenguaje Natural (Universidad Politécnica de Cataluña). La anotación incluye la categoría morfológica, constituyentes y funciones sintácticas, estructura argumental y papeles temáticos, etc. Cuenta con un potente buscador disponible online.

 

GRIAL. El corpus El Grial es una “interfaz computacional para anotación e interrogación de corpus en español” desarrollada por la Escuela de Lingüística de Valparaíso (Pontificia Universidad Católica de Valparaíso, Chile) y con dirección de Giovanni Parodi. Posee un buscador muy completo que, entre otros parámetros, permite seleccionar el modo, registro, género y temática del (sub)corpus a indagar, además del tipo de ítem (forma, lema y/o etiqueta sintáctica) a buscar. El corpus (de más de 60 millones de palabras y en desarrollo) incluye muchos corpus distintos, etiquetados morfo-sintácticamente. También pueden cargarse y anotarse (temporalmente) corpus ajenos. +info 

De paso menciono que la revista Signos, de este grupo de investigación, ha estrenado nuevo portal y, sobre todo, ha sido indexada al ISI web of knowledge de Thomson, es decir, es la primera revista de lingüística en español cuyo factor de impacto es medido por Thomson.

Herramientas de estadística online

El VassarStats es un muy completo portal de internet con diversas herramientas para el tratamiento estadístico de datos. Fuente: Corpora request. También está disponible para descarga un paquete básico de programas que acompaña al recientemente traducido Introducción a la estadística (Sheldon M. Ross, 2007). El archivo STATCOMP está disponible en el portal de la editorial Reverte, donde debe buscarse este libro y seleccionarse “información original”.

Publicado en on 19 Abril, 2008 at 8:31 am Comentarios (0)
Tags: ,