< Anterior | Siguiente >

Data Roda 30: Feminismo de Datos, Parte 2

Ayer, como lo previmos se estaba cumpliendo la paradoja del automatismo (tardar más en automatizar una tarea, abandonándola, que en hacerla manualmente):

La idea era usar Grafoscopio de esta manera:

Nuestro proceso

pero nos enfrentamos con varias dificultades:

  • PubPub del MIT:

    • El sitio de no ofrece exportación de formatos automatizada (lo cual sabíamos desde el comienzo):

    • El formato des bastante hostil para el scraping automatizado de Grafoscopio: el archivo está en una sóla línea inmensa y fossil cree que es un archivo binario, los archivos descargados soy muy grandes y tiene mucho "cromo" (adornos, estilos, comentarios), que no son parte del contenido del libro como tal y al descargarlos se dificultaba su limpieza.

  • Grafoscopio:

    • La importación de contenidos congela la interfaz Gráfica (GUI).
    • Una vez importados los nodos, ya limpios, la GUI se hacía lenta.

Leo propuso volver a un esquema manual.

La línea de tiempo de ayer reflejó estas tensiones:

Cada capítulo debe ir en tres lugares: fuente, pad y el repositorio

Más detalles de lo que hoy trabajamos en:

DataFem > Scraping

Extras