viernes, 24 de abril de 2009

Buscando nuevos patrones

Ahora que el robot es bastante estable, me estoy centrando en mejorar la lista de expresiones. Ya llevo más de 700 introducidas. Para ello estoy generando unas listas con los vandalismos detectados por humanos, para que me den ideas para nuevas expresiones regulares.

Un ejemplo de estas listas es: Usuario:AVBOT/Reversiones humanas/2009/04/23

domingo, 19 de abril de 2009

Clones de AVBOT

Ya son varios los usuarios de Wikipedia en español que han decidido instalarse un clon de AVBOT en sus máquinas, para ejecutarlo, y que en caso de que el servidor desde el que corro mi versión del robot esté fuera de servicio, sus clones sirvan de copia de respaldo y protejan a Wikipedia.

Esto conduce a realizar una serie de mejoras, pues la ejecución a la par de varios clones puede llevar a errores (avisos duplicados por ejemplo), aunque este extremo ya parece estar solucionado con los últimos parches que he aplicado.

Ahora queda realizar algunas pequeñas mejoras más para que los clones no se entorpezcan, y Wikipedia en español sea una barrera infranqueable para los vándalos. ¡Que ya lo es!

miércoles, 8 de abril de 2009

La sociología del vandalismo

Una de las ventajas de estar realizando el programa sobre un proyecto tan grande y tan dinámico como Wikipedia, y a la vez tan trasparente, es que tengo acceso a ingentes cantidades de datos derivados de la ejecución diaria del robot.

Entre las gráficas más expresivas que he generado se encuentra la siguiente:

Vandalismos por día durante el año 2008

En ella se observan los vandalismos que se realizaron durante casi todo el año 2008. Se observan dos grandes caidas. La primera entorno a los meses de junio-julio-agosto, y la segunda ocupa diciembre de 2008 y enero de 2009.

No cuesta imaginar el motivo de los descensos. En junio-julio-agosto la gente del hemisferio norte se va a la playa (en el hemisterio sur es invierno y coincide con algún mes de vacaciones de colegio) y deja de vandalizar, a finales de año todo el mundo está más ocupado con las fiestas y las vacaciones de Navidad.

Las constantes subidas y bajadas son las semanas. Los valles son los fines de semana (en los que la gente también deja en paz a Wikipedia), y los picos son los miércoles, que debe ser cuando están más aburridos en el trabajo, supongo.

Tengo algunas gráficas más. Las iré poniendo más adelante.

lunes, 6 de abril de 2009

IRC vs API

En la documentación anterior hemos comentado que el robot captura los cambios recientes en tiempo real a través de un canal de IRC. Esto no viene activado por defecto. El software MediaWiki permite habilitarlo en los ficheros de configuración, pero hay sitios web que utilizan MediaWiki y que por algún motivo no pueden o no desean usar un servidor de IRC para ello.

La solución pasa por implementar la opción de capturar los cambios recientes a través de la API de MediaWiki. Esto me mantendrá ocupado los próximos días.

miércoles, 1 de abril de 2009

Microsoft cerrará Encarta antes de fin de año

Microsoft ha anunciado que dejará de comercializar la enciclopedia Encarta en los próximos meses, quedando cerrada el 31 de octubre de 2009 (exceptuando Japón, cuyo cierre se producirá el 31 de diciembre).

Una parte del aviso deja entrever que es imposible competir contra otras formas de generar conocimiento que han conseguido gran popularidad en la red en los últimos años:

Why are these Encarta Web sites and software products being discontinued?
Encarta has been a popular product around the world for many years. However, the category of traditional encyclopedias and reference material has changed. People today seek and consume information in considerably different ways than in years past. As part of Microsoft’s goal to deliver the most effective and engaging resources for today’s consumer, it has made the decision to exit the Encarta business.

No son pocas las voces que proclaman a Wikipedia como victoriosa en esta batalla tácita por la difusión del conocimiento que se viene produciendo entre le enciclopedia libre y las enciclopedias de toda la vida. Por ejemplo, El País publica el siguiente titular "Microsoft se rinde ante la Wikipedia y cierra Encarta tras 16 años".

En la lista de correo de la Fundación Wikimedia han comentado la idea de solicitar la liberación de algunos contenidos de Encarta, para poder incorporarlos a Wikipedia.

Recordar que recientemente Google sacó un proyecto de generación de conocimiento llamado Knol, y que tampoco ha tenido mucho impacto.