“Lista de Frecuencia de Palabras del Español de Chile” (de S. Sadowsky) para descargar

Publicado: 27 mayo, 2008 en corpus online, descargas, recursos
Etiquetas:,

 

Otra buena noticia para la Lingüística de Corpus hispanoamericana y otra vez proveniente de Chile. Se puede descargar online (pesa poco más de 6 megas) la Lista de Frecuencias de Palabras del Castellano de Chile (LIFCACH). Se trata de un conjunto de 102 listas de frecuencias léxicas extraídas de los distintos subcorpora del impresionante Corpus Dinámico del Castellano de Chile (CODICACH). El CODICACH (son curiosos estos acrónimos…) está siendo desarrollado por Scott Sadowsky (Universidad de Concepción, Chile) desde 1997 y contiene actualmente alrededor de 830 millones de palabras. Este corpus privilegia los medios de prensa escritos, y por tanto no pretende ser representativo del castellano de Chile. Sadowsky también ofrece artículos y powerpoints para descarga en su página web. Fuente: Linguist list.

Nota: cuando lo descargué, sólo era posible hacerlo, sin problemas, del “Servidor secundario” que aparece en la pantalla de bienvenida. Tampoco lo he visualizado claramente, pero debe ser porque estoy poco acostumbrado a manejar tantos datos en crudo.

Anuncios
comentarios
  1. anarsoft dice:

    Lo he descargado y lo he puesto en una tabla de MySQL sin mayor problemas:

    La descripcion de la tabla es:

    CREATE TABLE Corpus
    (
    pais varchar(2) NOT NULL,
    lema varchar(30) NOT NULL,
    cat varchar(3) NOT NULL,
    PRIMARY KEY(pais,lema,cat),
    INDEX(lema)

    ) CHARACTER SET utf8;

    El comando MySQL que se debe utilizar para insertar los datos en esa tabla es:
    > LOAD DATA LOCAL INFILE ‘LIFCACH.txt’ INTO TABLE Corpus FIELDS TERMINATED BY ‘,’ LINES TERMINATED BY ‘\n’ IGNORE 3 LINES (@dummy,lema,cat) SET pais =’cl’;

    No le veo utilidad al numero de apariciones en cada periodico, ¿Para que la ulilizais?.

    ocupa 457697 rows in set (2.99 sec)

    Me gustaria saber si hay mas corpus disponibles en español que se puedad descargar libremente.

    Un saludo.

  2. federiconavarro dice:

    Hola, qué tal? Gracias por la información. Las dudas deberías dirigirlas a Sadowsky y su equipo, yo sólo he reproducido el aviso. En los enlaces de este blog están los otros corpus de español que conozco:

    http://www.discurso.wordpress.com/enlaces

    Un saludo.

  3. anarsoft dice:

    No se si yo no conozco muy bien el español de chile pero a mi juicio la palabra ”violadopres ” no existe y mas bien parace que es una errata, osea si añadimos un campo a nuestra tabla llamado frrecuencia tenemos:
    +——+——————-+—–+——+
    | pais | lema | cat | fr |
    +——+——————-+—–+——+
    | cl | violadacuando | N | 2 |
    | cl | violadopres | N | 2 |
    | cl | violadoresprovocó | N | 2 |
    | cl | violadora | N | 9 |
    | cl | violador | N | 2566 |
    | cl | violado | AJ | 3369 |
    +——+——————-+—–+——+

    podemos entonces considerar dos opciones :

    a) Que las palabras por debajo de un fr X son erratas encontradas en el Corpus y/o texto de dónde procede.
    b) Las palabras con fr menor que cierta X son cultimos o usos raros.

    bajo mi humilde opinion no se hasta que punto es lícito un corpus plagados de erratas.

    Por otro lados los link a otros corpus, llevan a aplicaciónes front-end que no tienen mucha utilidad para un desarrollador /investigador. La única que muestra descargas es el corpus catalán- español, pero no deja descargar nada.

    Todo esto me lleva a pensar que de gratis no hay NADA. lo cual hace suponer que vamos muy retrasados en lo que se refiere a PLN in Spanish . Que el Brown Corpus es muy viejo ya.

    Saludos.

  4. federiconavarro dice:

    Gracias por el comentario. Es muy interesante tu objeción con respecto a las erratas (y la posible solución que planteás).

    Que de gratis nada, y que vamos muy retrasados, en ambos no hay dudas. Ahora bien, los corpus que están linkeados permiten obtener contextos locales de uso (algunos analizados) y frecuencias de aparición, y ambas herramientas me parecen muy útiles para los analistas del discurso, por lo que agradezco que estén a disposición libre. El GRIAL también permite analizar un corpus que nosotros mismos proporcionamos.

    Entiendo que lo que reclamás es poder tomar prestado el corpus propiamente dicho. Interesante punto. ¿En el mundo anglosajón, por ejemplo, sí suelen estar disponibles gratuitamente?

    Un saludo.

  5. anarsoft dice:

    Yo entre en este blog buscando “Corpus Gratis en Español”, pero de lingüística se tanto como nada. Soy un Ing. en informática ‘investigador ‘ independiente, que intenta actualmente desarrollar un Compilador para un determinado tipo de texto. Para lo cual utilizo herramientas libres que si bien son útiles para lenguajes de programación no lo se si son las mas adecuadas para PLN.

    Si disponiese de una bbdd con la categoría gramatical el análizador léxico y sintáctico se simplifica puendo centrarte en lo importantante en mi caso. Análisis Semántico’

    así a falta de medios voy recopilamdo recursos por la red: ej en /www.buenosaires.gov.ar, he podido recopilar una tabla con 9724 nombres de pila, tengo localizados unos 200.000 apellidos, etc.

    muchos de los verbos se pueden deducir que son tal por su morfología en una lista grande de palabras. etc.

    Si conoces a algun grupo de intereses afines me gustaría conocerlos

  6. federiconavarro dice:

    Evidentemente estamos en terreno multidisciplinario, pero lo malo es que las disciplinas que deben dialogar aquí (lingüística e informática, básicamente) son tradicionalmente bastante distantes en nuestros países. Suerte con la búsqueda. En la lista CORPORA (está en los enlaces útiles : listas), que seguro conocerás, participan investigadores multidisciplinarios de todo el mundo.

    Un saludo.

  7. Jorge Caceres dice:

    no me queda más que agradecer la gran recopilación de palabras, que filtradas puedo aplicar a mi área informática, para poder mejorar el uso de la escritura que hacemos los chilenos, que es bastante deplorable

  8. mariana dice:

    Muy util, gracias por compartirlo

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s