Resultados manifiesto
De Visualizar
El 2 de diciembre de 2009 pude observar en twitter el revuelo suscitado por la Ley de Economía Sostenible que contenía un caramelo envenenado para la cultura libre. Los tweets se fueron agrupando en torno al hashtag #manifiesto y en ese momento pensé en monitorizar esta información para analizarlo pasado unos meses. El pasado 1 de abril, empecé a analizar los 37.131 tweets que tenía en ese momento.
El experimento está aún en curso
Tabla de contenidos |
Análisis
Autores
(Para acceder a la visualización interactiva pulsar en la imagen)
De los 37.131 tweets se han detectado 6.449 autores diferentes, que siguen la ley de Pareto: el 20% de los autores han escrito el 78,35% de los tweets.Gracias a la idea que me dio @paco229 visualicé en Many Eyes la cantidad de tweets publicados por los usuarios. El data set no es completo porque los 6.449 eran muchos para visualizar y solo subí a 298 autores que habían publicado más de 20 twets. El data set completo se puede obtener aquí.
Conversación
Se extrajeron las palabras de los tweets eliminando las que eran irrelevantes como artículos y preposiciones. Se obtuvieron dos versiones que se visualizaron con Wordle
datset hashtag
El tiempo
La frecuencia de tweets ha ido variando y se ha incrementado en en momentos claves como: 8-1-2010 primera reunión de Red Sostenible y 19-3-2010 se aprueba llevar la Ley al congreso sin cambios
Este es su timeline
Respecto a las horas de publicación, la hora punta de es las 12:00 a.m.
dataset de los datos de tiempo
Mapa de sitios más referenciados en los tweets
Nunca se sabe la dificultad que entraña hacer algo hasta que no se pone una a ello. Pensé que sería trivial extraer las urls de los tweets del hashtag #manifiesto y me equivoqué de lado a lado. La mayor barrera han sido las urls acortadas que es necesario expandirlas para poder analizarlas. Este pequeño detalle implica acceder a la web (consumo masivo de tiempo) y bregar con los errores de las urls (los errores humanos y de red). El script para extraer esta información ha tardado en ejecutarse más de 12 horas y debido a los errores he tenido que lanzarlo cuatro veces. Pero la paciente labor del investigador siempre tiene su recompensa y a continuación presento el análisis de las 20.236 urls que he obtenido.
(Para acceder a la visualización interactiva pulsar en la imagen)
La imagen anterior ilustra el reparto de menciones a sitios web estructurados por blogs, prensa, redes sociales, TV, video, Organizaciones,wikis, etc.. Se ha utilizado una visualización treemap que ilustra muy bien la parcelación de los sitios webs al ser el tamaño de las "parcelas" directamente proporcional al número de referencias. Como se puede observar, hay dos grandes "fincas": las de los blogs y la de la prensa, el resto de medios se aglutina en una tercer territorio misceláneo. El terreno de los blogs es ligeramente más extenso y está bastante uniformemente distribuido, destacando Mangas Verdes, eDans y Alt140. En el territorio de la prensa dominan cuatro latifundios El Pais, Público, ABC, 20 Minutos y El Mundo. Cabe destacar que ha circulado más información textual que multimedia.
La siguiente imagen muestra el topten de sitios mencionados En él se encuentran presentes la prensa, las redes sociales y los blogs.
(Para acceder a la visualización interactiva pulsar en la imagen)
Topten de tweets mencionados
Analizando el detalle de las 6.199 urls diferentes encontradas se observa que los mensajes que más se han difundido han sido los de los blogs, dos grupos de facebook, un vídeo de youtube, un wiki de una organización y un post de una cadena de televisión. Las noticias de los grandes medios de prensa se han difundido menos.
| Sitio | Post | N. Menciones |
| Merodeando | No cuela | 106 |
| Grupo de alicante | 100 | |
| eDans | La política del maquillaje | 91 |
| Exigimos conocer el Acuerdo Comercial Anti-Falsificación #ACTA | 88 | |
| Linotipo | El #manifiesto y la ética hácker | 88 |
| Escolar | Manifiesto: en defensa de los derechos fundamentales en Internet | 87 |
| Youtube | Sinde, pirate ya. La lección de Punset | 85 |
| Gallir | Tienen razónl a sgae, la coalicion y el ministerio de cultura | 81 |
| Wiki | Manifiestointernet.org | 75 |
| Cuatro | Los internautas y la oposición rechazan el modelo para el cierre de 'webs | 73 |
Como curiosidad la url más mencionada http://es.twirus.com/ con 321 menciones es un servicio que twitea los hashtags más calientes y por tanto se ha excluido del ranking.
Acortadores de urls
Una característica de los tweets es el uso de acortadores de urls para optimizar el espacio de los tweets. El 82% de las urls estaban acortadas. Me he sorprendido al identificar 103 acortadores diferentes. Se observa que además de los servicios web, algunos blogs utilizan su propio sistema de reducción del tamaño de sus urls.
bit.ly destaca sobre todos los sistemas de acortar url con un 55.76% seguido de tinyurl.com con una cuota del 16.17%
(Para acceder a la visualización interactiva pulsar en la imagen. )
Urls vs. clicks
Correlación entre el nº de clicks y los RTs entre los tweets que se han retransmitido cinco o más veces.
Para acceder a la visualización interactiva, pulsar en la imagen
Una de las preguntas que me hacía en el análisis del hashtag #manifiesto era si existía alguna correlación entre la retransmisión de una url y el número de clicks que recibía. He podido comprobarlo analizando los clicks de la urls acordadas por el servicio bit.ly usando el API de bit.ly
En los datos recogidos hay valores muy extremos, siendo 0,007 el índice de correlación lineal de la muestra total. Aparecen urls con miles de clicks que no se han retransmitido, mientras que otras muy retransmitidas no han llegado a cien clicks. Sin embargo, si se calcula la correlación segregando la muestra en función del número de RTs el índice aumenta hasta el 0,41 para las urls que han tenido 5 o más RTs (caso que ilustra la cabecera del post). La siguiente imagen muestra el índice de correlación entre los clicks y los RTs en función de la muestra segregada por nº de RTs.

No se puede concluir nada concreto de estos datos y es preciso medir otros valores como el número de seguidores para intentar aproximarse a una medida de la influencia del emisor del tweet. Para calcularla aún debo esperar un poco.
Conclusiones
|
Metodología usada
Para la extracción de la información Se ha utilizado el lenguaje python
Adicionalmente, para el análisis de urls:
- Se extrajeron 21.905 urls con una tasa de fallo por error de acceso al descomprimir las urls acortadas del 7,6%. El proceso de extracción duró más de 12 horas
- Se procesaron automáticamente 20.236 urls para obtener los sitios más mencionados, las urls más referenciadas y los distintos acortadores de url. Se ha realizado una revisión manual de las urls acortadas porque dieron algunos falsos positivos
Para el análisis de los clicks:
- Se ha usado el API de bit.ly con la librería Python-bitly de yoav.aviram para analizar los clicks de las urls acortadas con bit.ly.
- Procesar 4.331 urls ha llevado 78m 50.546s. aproximadamente 1,09 segundos por url y se han producido 37 errores (0,85%). De los datos obtenidos se han eliminado las urls que se han comprimido anónimamente porque no aparece su número de clicks, quedando en 3.636 urls.








