El diablo Cojuelo

el-diablo-cojuelo.jpg

Barriblog necesita analizar el código HTML de TODAS las páginas de los blogs para encontrar sus relaciones. Es la única manera de poder establecer los vínculos de vecindad salvo que alguien más astuto este guardando todos los rss de los blogs desde el inicio de la blogosfera. Estoy segura que esa información está en algún lugar pero no creo que me dieran un API para acceder a ella ni para una tesis doctoral. El único camino que queda es arremangarse y sacar la información desde fuera. Llevo un mes dejándome las pestañas en esquivar todos los errores del código HTML de los blogs que estoy analizando. No es fácil cumplir la W3C, prácticamente nadie la cumple, ni siquiera el código que generan las plataformas de blogs se ajustan al estándar. A esta dificultad hay que añadir la mano de los bloggers incrustando HTML a su libre albedrío, que he podido comprobar cuan diverso es: no cabría ni en la long tail. Mi buen amigo Jesús Sánchez conoce mi capacidad de esquivar los obstáculos en la programación. En el taller de visualización quedó un poco escandalizado de los trucos de una experimentada softwarera. Toda esa capacidad la he desplegado para BarriBlog pero en este momento, tras gestionar siete flags de contexto para sortear los fallos sintácticos, he exclamado antes de incluir el octavo: ¡BASTA YA! En su lugar acabo de implementar una rutina de manejo de errores sintácticos: El código HTML que no cubran los siete flags lo desecho y me sincronizo con el siguiente TAG. Ya me duele tirar información pero todo tiene su límite y hoy lo he alcanzado Me ha venido a la cabeza el delicioso libro «El diablo Cojuelo» que leí en mi juventud mientras entraba en las tripas de los blogs para que Lestat, el programa raíz de BarriBlog, les succionara la información para estructurarla. Esto me ha permitido ver el interior de los blogs al margen de su fachada o fama. Algo parecido lo que vio Don Cleofás cuando el Diablo Cojuelo, como pago de su a liberación, le mostró los hogares de Madrid por dentro y qué miserias esconden: cita.jpg Y levantando a los techos de los edificios, por arte diabólica, lo hojaldrado, se descubrió la carne del pastelón de Madrid como entonces estaba, patentemente, que por el mucho calor estivo estaba con menos celosías, y tanta variedad de sabandijas racionales en esta arca del mundo, que la del diluvio, comparada con ella, fue de capas y gorras. He analizado los 100 blogs de la tesis de Tiscar y de algunos de mis blogs favoritos. Sorprendería lo que he visto y dónde lo he visto, pero como mujer discreta que soy me reservo el secreto como si fuera de confesión y no daré nombres, pero es difícil que olvide a los blogs que me han hecho perder tanto tiempo. También he descubierto algunas cosas del código HTML que genera Blogger, pero eso como Schehrazada lo dejaré para otro día Aún me quedan unas cuantas fases de lestat pero por fin he cerrado el capítulo del adaptarme al medio de sintaxis difusas. Ahora, iré al grano.

7 Respuestas

  1. German Vargas Lleras dice:

    Porque Mejor Es Posible CR

  2. Marc: Me alegra mucho conocerte. Me han encantado tus trabajos. Muchas gracias por la información de brute force. Lo probaré.

    El parser de barriblog ya sabe hacer lo que brute Force. Lo estoy haciendo en flex y bison(yacc y lex) porque necesito analizar no solo los enlaces, sino también el contexto en que se encuentran. Distingo entre:

    Enlaces recomendados
    Citas (enlaces dentro de post
    Comentarios (enlaces en los comentarios)

    Estoy intentando que BarriBlog no solo lea la página del blog sino todo su archivo y sea capaz de poder definir el perfil del blog con algunos parámetros como: la frecuencia de publicación, la conversación, el grado de multimedia, etc..

    en el post ¡Uff, qué susto! explicaba con más detalle las diferencias entre walk2web y BarriBlog.

    En cuanto lo consiga te lo haré saber.

    De nuevo muchas gracias por los ánimos.

  3. marc dice:

    se me olvidó: ánimos!!! :)

  4. marc dice:

    Hola

    No conozco todo el proyecto, por lo que quizás lo que digo no te sirve del todo:

    Yo estoy también en un proyecto de «visualización de enlaces». La forma que me ha funcionado mejor ha sido «brute force»: un script (PHP en mi caso) se descarga la página y mediante Regular Expressions extrae todos los links. Aunque parezca lo contrario, el tiempo de proceso por página es mínimo.
    Una vez tienes el listado de links, es más fácil ver al dominio al que apuntan, si es relativo al mismo blog o apunta hacia fuera, etc.

    Con el spider que me hice acabé con una base de datos de más de 83.000 páginas… ahora queda representarlos! :S

  5. M@K: Imposible, soy como la mujer de Lot y aún no me he convertido en sal.

  6. Glups… no mires «De todo un poco, por favor»… ;-)

  1. enero 19, 2008

    […] Lestat de BarriBlog, pero las dificultades que me he encontrado (las describí en el post “El diablo cojuelo” ) me han hecho perder mucho tiempo. Para no retrasar más su publicación presentaré la que […]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *