Blogs vs. Prensa en el hashtag #manifiesto

Nunca se sabe la dificultad que entraña hacer algo hasta que no se pone una a ello. Pensé que sería trivial extraer las urls de los tweets del hashtag #manifiesto y me equivoqué de lado a lado. La mayor barrera han sido las urls acortadas que es necesario expandirlas para poder analizarlas. Este pequeño detalle implica acceder a la web (consumo masivo de tiempo) y bregar con los errores de las urls (los errores humanos y de red). El script para extraer esta información ha tardado en ejecutarse más de 12 horas y debido a los errores he tenido que lanzarlo cuatro veces. Pero la paciente labor del investigador siempre tiene su recompensa y a continuación presento el análisis de las 20.236 urls que he obtenido.

Mapa de sitios más referenciados en los tweets

(Para acceder a  la visualización interactiva pulsar en la imagen)

La imagen anterior ilustra el reparto de menciones a sitios web estructurados por blogs, prensa, redes sociales, TV, video, Organizaciones,wikis, etc..  Se ha utilizado una visualización treemap que ilustra muy bien la parcelación de los sitios webs al ser el tamaño de las «parcelas»  directamente proporcional al número de referencias. Como se puede observar, hay dos grandes «fincas»: las de los blogs y la de la prensa, el resto de medios se aglutina en una tercer territorio misceláneo. El terreno de los blogs es ligeramente más extenso y está bastante uniformemente distribuido, destacando Mangas Verdes, eDans y Alt140. En el territorio de la prensa dominan cuatro latifundios El Pais, PúblicoABC, 20 Minutos y El Mundo. Cabe destacar que ha circulado más información textual que multimedia. La siguiente imagen muestra el  topten de sitios mencionados En él se encuentran presentes la prensa, las redes sociales y los  blogs.

(Para acceder a  la visualización interactiva pulsar en la imagen)

Topten de tweets mencionados

Analizando el detalle de las 6.199 urls diferentes encontradas se observa que los mensajes que más se han difundido han sido los de los blogs, dos grupos de facebook, un vídeo de youtube, un wiki de una organización y un post de una cadena de televisión. Las noticias de los grandes medios de prensa se han difundido menos.

Sitio Post N. Menciones
Merodeando No cuela 106
Facebook Grupo de alicante 100
eDans La política del maquillaje 91
Facebook Exigimos conocer el Acuerdo Comercial Anti-Falsificación #ACTA 88
Linotipo El #manifiesto y la ética hácker 88
Escolar Manifiesto: en defensa de los derechos fundamentales en Internet 87
Youtube Sinde, pirate ya. La lección de Punset 85
Gallir Tienen razónl a sgae, la coalicion y el ministerio de cultura 81
Wiki Manifiestointernet.org 75
Cuatro Los internautas y la oposición rechazan el modelo para el cierre de ‘webs 73

Como curiosidad la url más mencionada http://es.twirus.com/ con 321 menciones es un servicio que twitea los hashtags más calientes y por tanto se ha excluido del ranking.

Acortadores de urls

Una característica de los tweets es el uso de acortadores de urls para optimizar el espacio de los tweets. El 82% de las urls estaban acortadas. Me he sorprendido al identificar 103 acortadores diferentes. Se observa que además de los servicios web, algunos blogs utilizan su propio sistema de reducción del tamaño de sus urls. bit.ly destaca sobre todos los sistemas de acortar url con un 55.76% seguido de tinyurl.com con una cuota del 16.17%

(Para acceder a  la visualización interactiva pulsar en la imagen. )

Conclusiones

  • Los usuarios de twtiter consumen más información de los blogs que de la prensa
  • La información de la prensa está más centralizada por lo que sus sitios son los más referenciados
  • Se propaga mejor la información cuyo origen es un blog, youtube o facebook
  • Las urls acortadas son absoluta mayoría creando una dependencia a estos sistemas para acceder a la información y dificultando los mecanismos automáticos de extracción de datos.

Metodología usada

  • Se ha utilizado el lenguaje python para extraer la información
  • Se extrajeron 21.905 urls con una tasa de fallo por error de acceso al descomprimir las urls acortadas del 7,6%. El proceso de extracción duró más de 12 horas
  • Se procesaron automáticamente 20.236 urls para obtener los sitios más mencionados, las urls más referenciadas y los  distintos acortadores de url.  Se ha realizado una revisión manual de las urls acortadas porque dieron algunos falsos positivos

El data set

Enlaces relacionados:

También te podría gustar...

5 Respuestas

  1. Gracias a todos los RTs
    @sandopen: Ayer no pude ir al evento de Fundación porque quería terminar este análisis. Espero poder ir al próximo.
    @vrruiz Gracias!! llevo programando en python dos semanas y no veas lo que cunde. Se ajusta como anillo al dedo para este tipo de análisis. ¡No sé como no lo he usado antes!
    @paco229 y edyvidal Os voy a contratar de managers :-)

  2. Magnifico trabajo, dentro de poco se te habrá olvidado el tiempo pasado con el trabajo y el resultado quedará. Me ha encantado!!!

  3. ¡Muy buen trabajo de análisis! Y usando Python, como Guido manda :)

  1. abril 26, 2010

    […] analicé las urls del los tweets del hashtag #manifiesto, descubrí  que las urls acortadas son una barrera para […]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *