Algunos resultados de mi tesis doctoral

Comparto aquí algunos resultados de mi tesis doctoral, disponibles libremente para uso de la comunidad académica.

Lematizador en castellano para AntConc.

Sistema lematizador obtenido a partir de la adaptación del lemario en castellano producido por el algoritmo Snowball (de Porter, Boulton & Macfarlane, City University of London) al formato de entrada del software AntConc.

  • Descargable aquí.
  • También en formato UNICODE aquí.

Adaptación del CREA (Corpus de Referencia del Español Actual) para AntConc.

Adaptación de los 730.000 términos más frecuentes del Corpus de Referencia del Español Actual (CREA v3.2) al formato aceptado para corpus de referencia (como tabla de frecuencias normalizadas, no como texto bruto) por el software de análisis léxico AntConc.

Descargable aquí.

API realizadas con Import.IO para investigar contenidos en la prensa española de referencia. 

He liberado sendas API (Application Programming Interface) realizadas con el software Import.IO que permiten aplicar técnicas de scrapping y crawling sobre las ediciones digitales de El Mundo y El País. Ello permite recuperar de forma sistematizada enormes cantidades de titulares, como por ejemplo los de esta tabla.

La API para el crawler de El País, se basa en su sistema de etiquetado (tags) y está accesible a través de la URL:

Below is an endpoint from the import.io RESTful API with parameters set for your selected data source. Querying it will extract data from the URL specified as input/webpage/url. https://api.import.io/store/data/c6633e0c-3e98-458a-9962-932aa1342992/_query?input/webpage/url=http%3A%2F%2Felpais.com%2Ftag%2Fcrisis_bursatil%2Fa%2F1&_user=3cbfe1bb-193f-4d1b-b2be-6c78014086a4&_apikey=3cbfe1bb193f4d1bb2be6c78014086a48fc7088ae82072d223f718c55ae85a75d65df162824f585d425705f99b09b65712631eec363a690af8d1219842d228427aa6cb513fe772e2ed42b73042c38913

La API de El Mundo, en cambio,  se basa en su buscador, y puede utilizarse a partir de la siguiente URL:

Below is an endpoint from the import.io RESTful API with parameters set for your selected data source. Querying it will extract data from the URL specified as input/webpage/url. <a href="https://api.import.io/store/data/fde11ff5-b4e4-4c71-af3b-ce3225afe06b/_query?input/webpage/url=http%3A%2F%2Fwww.elmundo.es%2Felmundo%2Fhemeroteca%2F2012%2F06%2F10%2Fm%2F&_user=3cbfe1bb-193f-4d1b-b2be-6c78014086a4&_apikey=3cbfe1bb193f4d1bb2be6c78014086a48fc7088ae82072d223f718c55ae85a75d65df162824f585d425705f99b09b65712631eec363a690af8d1219842d228427aa6cb513fe772e2ed42b73042c38913" target="_blank">https://api.import.io/store/data/fde11ff5-b4e4-4c71-af3b-ce3225afe06b/_query?input/webpage/url=http%3A%2F%2Fwww.elmundo.es%2Felmundo%2Fhemeroteca%2F2012%2F06%2F10%2Fm%2F&_user=3cbfe1bb-193f-4d1b-b2be-6c78014086a4&_apikey=3cbfe1bb193f4d1bb2be6c78014086a48fc7088ae82072d223f718c55ae85a75d65df162824f585d425705f99b09b65712631eec363a690af8d1219842d228427aa6cb513fe772e2ed42b73042c38913