Blogs vs. Prensa en el hashtag #manifiesto
Nunca se sabe la dificultad que entraña hacer algo hasta que no se pone una a ello. Pensé que sería trivial extraer las urls de los tweets del hashtag #manifiesto y me equivoqué de lado a lado. La mayor barrera han sido las urls acortadas que es necesario expandirlas para poder analizarlas. Este pequeño detalle implica acceder a la web (consumo masivo de tiempo) y bregar con los errores de las urls (los errores humanos y de red). El script para extraer esta información ha tardado en ejecutarse más de 12 horas y debido a los errores he tenido que lanzarlo cuatro veces. Pero la paciente labor del investigador siempre tiene su recompensa y a continuación presento el análisis de las 20.236 urls que he obtenido.
Mapa de sitios más referenciados en los tweets
(Para acceder a la visualización interactiva pulsar en la imagen)
La imagen anterior ilustra el reparto de menciones a sitios web estructurados por blogs, prensa, redes sociales, TV, video, Organizaciones,wikis, etc.. Se ha utilizado una visualización treemap que ilustra muy bien la parcelación de los sitios webs al ser el tamaño de las «parcelas» directamente proporcional al número de referencias. Como se puede observar, hay dos grandes «fincas»: las de los blogs y la de la prensa, el resto de medios se aglutina en una tercer territorio misceláneo. El terreno de los blogs es ligeramente más extenso y está bastante uniformemente distribuido, destacando Mangas Verdes, eDans y Alt140. En el territorio de la prensa dominan cuatro latifundios El Pais, Público, ABC, 20 Minutos y El Mundo. Cabe destacar que ha circulado más información textual que multimedia. La siguiente imagen muestra el topten de sitios mencionados En él se encuentran presentes la prensa, las redes sociales y los blogs.
(Para acceder a la visualización interactiva pulsar en la imagen)
Topten de tweets mencionados
Analizando el detalle de las 6.199 urls diferentes encontradas se observa que los mensajes que más se han difundido han sido los de los blogs, dos grupos de facebook, un vídeo de youtube, un wiki de una organización y un post de una cadena de televisión. Las noticias de los grandes medios de prensa se han difundido menos.
Sitio | Post | N. Menciones |
Merodeando | No cuela | 106 |
Grupo de alicante | 100 | |
eDans | La política del maquillaje | 91 |
Exigimos conocer el Acuerdo Comercial Anti-Falsificación #ACTA | 88 | |
Linotipo | El #manifiesto y la ética hácker | 88 |
Escolar | Manifiesto: en defensa de los derechos fundamentales en Internet | 87 |
Youtube | Sinde, pirate ya. La lección de Punset | 85 |
Gallir | Tienen razónl a sgae, la coalicion y el ministerio de cultura | 81 |
Wiki | Manifiestointernet.org | 75 |
Cuatro | Los internautas y la oposición rechazan el modelo para el cierre de ‘webs | 73 |
Como curiosidad la url más mencionada http://es.twirus.com/ con 321 menciones es un servicio que twitea los hashtags más calientes y por tanto se ha excluido del ranking.
Acortadores de urls
Una característica de los tweets es el uso de acortadores de urls para optimizar el espacio de los tweets. El 82% de las urls estaban acortadas. Me he sorprendido al identificar 103 acortadores diferentes. Se observa que además de los servicios web, algunos blogs utilizan su propio sistema de reducción del tamaño de sus urls. bit.ly destaca sobre todos los sistemas de acortar url con un 55.76% seguido de tinyurl.com con una cuota del 16.17%
(Para acceder a la visualización interactiva pulsar en la imagen. )
Conclusiones
|
Metodología usada
- Se ha utilizado el lenguaje python para extraer la información
- Se extrajeron 21.905 urls con una tasa de fallo por error de acceso al descomprimir las urls acortadas del 7,6%. El proceso de extracción duró más de 12 horas
- Se procesaron automáticamente 20.236 urls para obtener los sitios más mencionados, las urls más referenciadas y los distintos acortadores de url. Se ha realizado una revisión manual de las urls acortadas porque dieron algunos falsos positivos
El data set
- Los datos obtenidos y procesados se encuentran en esta hoja de cálculo
Enlaces relacionados:
Muy buenooo!!!
Gracias a todos los RTs
@sandopen: Ayer no pude ir al evento de Fundación porque quería terminar este análisis. Espero poder ir al próximo.
@vrruiz Gracias!! llevo programando en python dos semanas y no veas lo que cunde. Se ajusta como anillo al dedo para este tipo de análisis. ¡No sé como no lo he usado antes!
@paco229 y edyvidal Os voy a contratar de managers :-)
Magnifico trabajo, dentro de poco se te habrá olvidado el tiempo pasado con el trabajo y el resultado quedará. Me ha encantado!!!
¡Muy buen trabajo de análisis! Y usando Python, como Guido manda :)