Explorando el camino del XHTML
Los errores sintácticos han sido uno de los problemas que me he encontrado al analizar el código HTML de los blogs con el programa Lestat, como ya escribí hace tiempo en el post titulado El diablo cojuelo. Hace unas semanas Norberto Fernández, profesor de mi Departamento me sugirió que convirtiese el HTML de los blogs a XHTML y me indicó dos herramientas para hacerlo: tidy y html2xhtml. Estas herramientas son capaces de convertir HTML en XHTML, ordenando, limpiando y corrigiendo los errores de markup. Las ventajas de trabajar con XHTML son múltiples: es un lenguaje de marcas bien estructurado, permite de recorrer el documento con XPATH o con XSLT. La herramienta tidy, disponible en lenguaje c y java, fue desarrollada por Dave Raggett y como dice su autor:
Is an open source utility for tidying up HTML. Tidy is composed from an HTML parser and an HTML pretty printer. The parser goes to considerable lengths to correct common markup errors. It also provides advice on how to make your pages more accessible to people with disabilities, and can be used to convert HTML content into XML as XHTML. Tidy is W3C open source and available free. It has been successfully compiled on a large number of platforms, and is being integrated into many HTML authoring tools. Recently the maintenance of Tidy has been taken over by a group of dedicated volunteers on SourceForge
La herramienta html2xhtml se ofrece como servicio web y su código fuente está disponible en lenguaje c que funciona tanto en plataformas GNU/Linux como Windows, aunque en su versión compilada sólo se ofrece para Windows, siendo necesario en otras plataformas compilarlo a partir de su código fuente. Ha sido desarrollada por Jesús Arias Fisteus, profesor de la Universidad Carlos III y como dice su autor:
Is an open-source converter from HTML to XHTML. it converts HTML files into XHTML. It can fix many common errors in HTML files (e.g. missing end tags, elements with incorrect content model, non-standard elements or attributes, etc.) The output document type can be selected among several XHTML DTDs (1.0, 1.1, Basic, etc.).
He realizado una prueba de estas dos herramientas sobre 100 blogs de la tesis de Tíscar Lara
Escenario de la prueba:
Estos han sido los resultados: La herramienta tidy ha podido convertir 88 de los 100 blogs analizados(1) mientras que la herramienta html2xhtml ha conseguido convertir 99 sobre 100 blogs. Las herramientas muestran un buen comportamiento, sobre todo html2xhtml, dado que los errores de sintaxis del código HTML de los blogs son muy frecuentes. Esto abre la posibilidad de poder analizar el contenido de los blogs por otros medios a demás de los clásicos parsers. Respecto al tiempo de ejecución la herramienta html2xhtml ha utilizado 0 min 48 seg(2) mientras que tidy ha tardado 3 min 6.629 seg(3). |
Después de esta prueba se me abren nuevos caminos para continuar el desarrollo de lestat. Pero como decía Scarlett O’Hara, «eso lo pensaré mañana». ——–