Explorando el camino del XHTML

xhtml_logo_medium Los errores sintácticos han sido uno de los problemas que me he encontrado al analizar el código HTML de los blogs con el programa  Lestat, como ya  escribí  hace tiempo en el post titulado  El diablo cojuelo.  Hace unas semanas  Norberto Fernández,  profesor de mi Departamento  me sugirió  que convirtiese el HTML de los blogs a XHTML y me indicó dos herramientas para hacerlo: tidy y html2xhtml. Estas herramientas son capaces de convertir HTML en XHTML, ordenando, limpiando y corrigiendo los errores de markup.  Las ventajas de trabajar con XHTML son múltiples:  es un lenguaje de marcas bien estructurado, permite de recorrer el documento  con XPATH o con XSLT. La herramienta tidy, disponible en lenguaje c y java, fue desarrollada por Dave Raggett y como dice su autor:

Is an open source utility for tidying up HTML. Tidy is composed from an HTML parser and an HTML pretty printer. The parser goes to considerable lengths to correct common markup errors. It also provides advice on how to make your pages more accessible to people with disabilities, and can be used to convert HTML content into XML as XHTML. Tidy is W3C open source and available free. It has been successfully compiled on a large number of platforms, and is being integrated into many HTML authoring tools. Recently the maintenance of Tidy has been taken over by a group of dedicated volunteers on SourceForge

La herramienta   html2xhtml se ofrece como servicio web y su código fuente está  disponible en lenguaje c que funciona tanto en plataformas GNU/Linux como Windows, aunque en su versión compilada sólo se ofrece para Windows, siendo necesario en otras plataformas compilarlo a partir de su código fuente.  Ha sido desarrollada por Jesús Arias Fisteus, profesor de la Universidad Carlos III y como dice su autor:

Is an open-source converter from HTML to XHTML. it converts HTML files into XHTML. It can fix many common errors in HTML files (e.g. missing end tags, elements with incorrect content model, non-standard elements or attributes, etc.) The output document type can be selected among several XHTML DTDs (1.0, 1.1, Basic, etc.).

He realizado una prueba  de estas dos herramientas sobre 100 blogs de la tesis de Tíscar Lara

Escenario de la prueba:

  • Entorno de ejecución cygwin bajo Windows
  • Versión de tidy 25 de marzo de 2009
  • Invocación tidy -asxhtml -numeric < origen.html > destino.xhtml
  • versión de html2xhtml 7 de julio de 2009
  • Invocación html2xhtml origen.html -o destino.xhtml
  • Los tiempos de ejecución están medidos realizando la conversión desde fichero.

Estos han sido los resultados: La herramienta tidy ha podido convertir 88 de los 100 blogs analizados(1) mientras que la herramienta html2xhtml ha conseguido convertir 99 sobre 100 blogs.  Las herramientas muestran un buen comportamiento, sobre todo html2xhtml, dado que  los errores de sintaxis del código HTML de los blogs son muy frecuentes.  Esto abre la posibilidad de poder analizar el contenido de los blogs por otros medios a demás de los clásicos parsers. Respecto al tiempo de ejecución la herramienta html2xhtml ha utilizado 0 min  48 seg(2) mientras que tidy ha tardado 3 min 6.629 seg(3).

Después de esta prueba  se me abren nuevos caminos para continuar el desarrollo de lestat. Pero como decía Scarlett O’Hara, «eso lo pensaré mañana». ——–

(1) Utilizando algunas opciones en tidy es posible mejorar este porcentaje, pero para realizar la comparación de herramientas se ha invocado el comando de la manera más elemental
(1)  html2xhtml real 0 min  48 seg, user, 0 min 16 seg, sys 0 min 10,685 seg (2) tidy real 3 min 6,629 seg, user 0 min 36,049 seg,  sys 0 min 59,186 seg

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *