tag:blogger.com,1999:blog-60038054109804772392024-03-19T03:00:25.972-07:00El blog de AVBOTNo podemos erradicar el vandalismo, tan sólo podemos revertirloUnknownnoreply@blogger.comBlogger25125tag:blogger.com,1999:blog-6003805410980477239.post-29588727400976631692011-11-02T03:24:00.001-07:002023-02-25T03:29:24.080-08:00Premio al mejor artículo publicado en 2010 en la revista Novática<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgCk9Xow9C9hQqDZ_NSBOTlPjWanFg5K14cCH-j6CU51TnNoeerDnrzwBKP7U_lPOxffHeD2H9hzHY2bj2_Yj8ckUYiNMvYWsgzG2Ay6Rjr_FRN3xxbmpndUBEN9Nq5_WlG7_qUzG_tbF8/s1600/PA260015b.redimensionado.JPG" style="margin-left: auto; margin-right: auto;"><img border="0" height="480" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgCk9Xow9C9hQqDZ_NSBOTlPjWanFg5K14cCH-j6CU51TnNoeerDnrzwBKP7U_lPOxffHeD2H9hzHY2bj2_Yj8ckUYiNMvYWsgzG2Ay6Rjr_FRN3xxbmpndUBEN9Nq5_WlG7_qUzG_tbF8/s640/PA260015b.redimensionado.JPG" width="640" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;"><i>El <a href="http://www.ati.es/spip.php?article1851">miércoles 26 de octubre de 2011</a> recogí en Madrid en el Aula Magna de la Universidad Pontificia Comillas</i> <i>el <a href="http://www.ati.es/spip.php?article1775">Premio al mejor artículo publicado en 2010 en la revista Novática</a> por mi artículo «<a href="https://raw.githubusercontent.com/emijrp/avbot/master/publications/2010-novatica-avbot.es.pdf">AVBOT: Detección y corrección de vandalismos en Wikipedia</a>». ¡Muchas gracias a todos!</i><br />
<br />
En la foto aparecen, de izquierda a derecha: Joaquín Ayuso de Paúl
(fundador de Tuenti.com); Mariano Ventosa Rodríguez (Director de la
Escuela de Ingeniería ICAI-Comillas); Emilio José Rodriguez Posada
(ganador de la V Edición del Premio Novática); Rafael Fernández Calvo
(Presidente del Consejo Editorial de Novática); Llorenç Pagés Casas
(Director de Novática).<br />
<br />
<b><a href="https://raw.githubusercontent.com/emijrp/avbot/master/publications/2010-novatica-avbot.es.pdf">Puedes leer el artículo aquí </a></b></td><td class="tr-caption" style="text-align: center;"><br /></td></tr>
</tbody></table>
<br />Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-16399501527158016552010-05-08T09:59:00.000-07:002010-05-08T10:04:34.302-07:00La poca creatividad de los vándalosHace unos días generé una <a style="font-weight: bold;" href="http://es.wikipedia.org/w/index.php?title=Usuario:AVBOT/Expresiones_regulares_por_frecuencia&oldid=36686525">tabla teniendo en cuenta las reversiones realizadas por AVBOT</a> durante 63 días entre el <span style="font-weight: bold;">20 de febrero y 3 de mayo de 2010</span> (algunos de los cuales estuvo inactivo por mantenimiento).<br /><br />En este periodo, <span style="font-weight: bold;">AVBOT intervino 29157 veces</span>. Las 560 expresiones regulares que aparecen se dispararon al menos una vez en ese intervalo, y en total se activaron 39435 veces.<br /><br />La más frecuente es <span style="font-weight: bold;">p+[^a-z0-9]{,3}u+[^a-z0-9]{,3}t+[^a-z0-9]{,3}[ao]+[^a-z0-9]{,3}s*</span> (puta y derivados) con un 8,2%. El 50% de los vandalismos revertidos por AVBOT queda cubierto con las 19 primeras expresiones regulares. El 75% con las 56 primeras. El 90% con las 149 primeras. El 95% con las 224 primeras. Y el 99% con las 375 primeras.<br /><br />Como podeis comprobar, los vándalos no se caracterizan por tener una gran creatividad, de ahí que se dediquen a destruir en vez de a mejorar lo existente.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-2192253974611716652010-04-03T17:20:00.001-07:002010-04-03T17:28:27.645-07:00Optimización y expansión a otros proyectosDurante las últimas semanas he estado haciendo algunas <span style="font-weight: bold;">optimizaciones en el código de AVBOT </span>que han permitido que se <span style="font-weight: bold;">reduzca el tiempo</span> que tarda en reparar los vandalismos. Antes tardaba una media de cinco segundos, habiéndose reducido a tres en la versión actual (cálculos <span style="font-style: italic;">grosso modo</span>, ya haré una gráfica). Ha sido posible, de nuevo, al empleo de <span style="font-weight: bold;">hilos</span>.<br /><br />Además, <span style="font-weight: bold;">AVBOT está siendo probado en la versión inglesa de Wikipedia</span>, y hay un usuario interesado en llevarlo a Wikipedia en portugués. Por todo ello, estoy haciendo algunos avances en cuanto a la versatilidad del código. Pero aun no está internacionalizado, ¡eso será más adelante!<br /><br />Más información sobre todo esto en sucesivas entradas.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-16901875751206657032010-03-11T14:29:00.000-08:002012-06-18T06:50:42.958-07:00AVBOT in English<div style="text-align: justify;">
<i><span style="font-weight: bold;">For a detailed description in English, see </span><a href="http://www.cepis.org/upgrade/index.jsp?p=2701&n=2757#rodriguez">AVBOT: Detecting and fixing Vandalism in Wikipedia. CEPIS UPGRADE Vol. XII, No. 3, July 2011, pp. 67-70</a></i> (<a href="https://sites.google.com/site/emijrp/III_2011_rodriguez1.pdf">PDF link</a>)<i> </i><span style="font-weight: bold;"> </span></div>
<hr style="margin-left: 0px; margin-right: 0px;" />
<div style="text-align: justify;">
<span style="font-weight: bold;">AVBOT</span> is an <span style="font-weight: bold;">anti-vandalism bot for Wikipedia projects</span> (although it would be useful for all MediaWiki sites).</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
Its main developer is <a href="http://es.wikipedia.org/wiki/Usuario:Emijrp"><span style="font-weight: bold;">emijrp</span></a>, a veteran user of Spanish Wikipedia. This project is in an advanced status, and it is used in Spanish Wikipedia under the nickname <a href="http://es.wikipedia.org/wiki/Usuario:AVBOT">AVBOT</a> with great results. You can see it <a href="http://es.wikipedia.org/wiki/Especial:Contribuciones/AVBOT">running 24/7</a> or some of <a href="http://es.wikipedia.org/wiki/Usuario:AVBOT#Clones">its clones</a>. It has reverted more than 250,000 vandalisms.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
You can download the <a href="http://code.google.com/p/avbot/">source code</a> from Google Code, it is published under GPL v3 license. It uses the <a href="http://pywikipediabot.sourceforge.net/">pywikipediabot</a> and <a href="http://python-irclib.sourceforge.net/">python-irclib</a> libraries.</div>Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-19807174391426779592010-02-14T14:12:00.001-08:002010-03-18T15:19:04.168-07:00AVBOT ha alcanzado las 500.000 edicionesHace pocos días <span style="font-weight: bold;">AVBOT alcanzó las <a href="http://es.wikipedia.org/w/api.php?action=query&list=users&ususers=AVBOT&usprop=editcount">500.000 ediciones</a></span>. Como siempre, la mitad han sido reversiones de vandalismos y la otra mitad avisos a usuarios. Ha pasado casi un año desde el concurso, y <a href="http://es.wikipedia.org/wiki/Especial:Contribuciones/AVBOT">AVBOT sigue trabajando sin descanso</a> las 24 horas del día.<br /><br />Me gustaría incorporarle algunas mejoras, pero eso será cuando disponga de algo más de tiempo.<br /><br /><span style="font-weight: bold;">Actualización:</span> Para ser justos, diré que ayer calculé el número exacto de intervenciones de AVBOT (reversiones de vandalismos, blanqueos y ediciones de prueba) y salió 197.000. Así que no llega a los 250.000 como dije, pero va de camino ;).<br /><br /><span style="font-weight: bold;">Actualización 2:</span> Hoy, 18 de marzo de 2010, <a href="http://es.wikipedia.org/wiki/Wikipedia:Ranking_de_ediciones_%28incluye_bots%29">AVBOT ha superado a CEM-bot</a> (ver <a href="http://es.wikipedia.org/w/index.php?title=Wikipedia%3ARanking_de_ediciones_%28incluye_bots%29&action=historysubmit&diff=35217122&oldid=35172820">diff</a>), el bot de correcciones ortográficas, colocándose en el segundo puesto, sólo por detrás de "Muro Bot".Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-41200712560784308352009-05-11T02:16:00.001-07:002010-02-12T11:20:39.217-08:00Premio Nacional al "Mejor proyecto comunitario"Finalmente se celebró la <a href="http://www.concursosoftwarelibre.org/0809/premios-iii-concurso-universitario-software-libre">fase final del III Concurso de Software Libre</a>, y <a href="http://avbot.blogspot.com/">AVBOT</a> ha tenido el honor de recibir el <span style="font-weight: bold;">Premio Nacional al "Mejor proyecto comunitario"</span> de esta edición.<br /><br /><div style="text-align: center;"><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.concursosoftwarelibre.org/0809/premios-iii-concurso-universitario-software-libre"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 400px; height: 267px;" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEg-IhA66_cmCPPtlAmwY1ie9u_ZJClq4FCTHXwWOtBeLdOqzWxnaBSp6fsedc6_6rSz9FiLCupaS-dLj43uNNdoqr4rA5rQyqwaO3PTTH98orzKbhKu4iwQpEKa1tFwV6TY5JppO9KYczA/s400/premiados_thumb.jpg" alt="" id="BLOGGER_PHOTO_ID_5334492999646926962" border="0" /></a><span style="font-style: italic;"><span style="font-size:85%;">Los premiados y algunos pingüinos</span><br /></span><div style="text-align: left;"><span style="font-style: italic;"></span><br />La <span class="link-external"><a href="http://www.concursosoftwarelibre.org/0809/premios-iii-concurso-universitario-software-libre">relación completa de premiados</a></span> ha sido la siguiente: <ul><li><strong>Mejor proyecto de innovación</strong> <ul><li>Primer premio: <span class="link-external"><a href="http://eopsoa.blogspot.com/">eOPSOA</a></span> de <em>David Castellanos Serrano</em> de la Universidad de Castilla la Mancha</li><li>Finalista: <span class="link-external"><a href="http://luisette.wordpress.com/">Cool Imaging</a></span> de <em>Luis Antonio González Jaime</em> y <em>Ricardo Juan Palma Durán</em> de la Universidad de Granada</li></ul></li><li><strong>Mejor proyecto de ocio y educación</strong> <ul><li>Primer premio: <span class="link-external"><a href="http://tucaneando.wordpress.com/">Tucan</a></span> de <em>Jose Francisco Lupion González</em>, <em>Francisco Salido Ruiz</em> y <em>Jose Manuel Cordero Rodríguez</em> de la Universidad de Málaga</li><li>Finalista: <span class="link-external"><a href="http://danigm.net/geco">Geco</a></span> de <em>Daniel García Moreno</em> de la Universidad de Sevilla</li></ul></li><li><strong>Mejor proyecto comunitario</strong> <ul><li><strong>Primer premio: <span class="link-external"><a href="http://avbot.blogspot.com/">AVBOT</a></span> de <em>Emilio José Rodríguez Posada</em> de la Universidad de Cádiz</strong></li><li>Finalista: <span class="link-external"><a href="http://longomatch.wordpress.com/">The Digital Coach</a></span> de <em>Andoni Morales Alastruey</em> de la Universidad Politécnica de Madrid</li></ul></li></ul> <p>Además de los premios en metálico, los premiados se llevan una subscripción a la revista <span class="link-external"><a href="http://www.linux-magazine.es/">Linux Magazine</a></span> y a la revista <span class="link-external"><a href="http://www.ati.es/novatica/">Novática</a></span>.</p><p>Quisiera agradecer a la organización, participantes y patrocinadores, todo el esfuerzo llevado a cabo para sacar adelante esta nueva edición del concurso.<br /></p><p>¡Muchas gracias a todos!<br /></p><span style="font-style: italic;"></span></div></div>Unknownnoreply@blogger.com3tag:blogger.com,1999:blog-6003805410980477239.post-8965091329969733802009-04-24T12:42:00.000-07:002009-04-30T04:31:23.258-07:00Buscando nuevos patronesAhora que <span style="font-weight: bold;">el robot es bastante estable</span>, me estoy centrando en mejorar la lista de expresiones. Ya llevo más de 700 introducidas. Para ello estoy generando unas <span style="font-weight: bold;">listas con los vandalismos detectados por humanos</span>, para que me den<span style="font-weight: bold;"> ideas para nuevas expresiones</span> regulares.<br /><br />Un ejemplo de estas listas es: <a href="http://es.wikipedia.org/wiki/Usuario:AVBOT/Reversiones_humanas/2009/04/23">Usuario:AVBOT/Reversiones humanas/2009/04/23</a>Unknownnoreply@blogger.com2tag:blogger.com,1999:blog-6003805410980477239.post-81413132882399905012009-04-19T04:05:00.000-07:002009-04-19T04:08:16.394-07:00Clones de AVBOTYa son varios los usuarios de Wikipedia en español que han decidido instalarse un<span style="font-weight: bold;"> clon de AVBOT </span>en sus máquinas, para ejecutarlo, y que en caso de que el servidor desde el que corro mi versión del robot esté fuera de servicio, sus clones sirvan de copia de respaldo y protejan a Wikipedia.<br /><br />Esto conduce a realizar una serie de mejoras, pues la ejecución a la par de varios clones puede llevar a errores (avisos duplicados por ejemplo), aunque este extremo ya parece estar solucionado con los últimos parches que he aplicado.<br /><br />Ahora queda realizar algunas pequeñas mejoras más para que los clones no se entorpezcan, y Wikipedia en español sea una barrera infranqueable para los vándalos. ¡Que ya lo es!Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-1435117309549735782009-04-13T02:36:00.000-07:002010-02-17T05:10:46.138-08:00AVBOT en los medios de comunicaciónA raiz de <span style="font-weight: bold;">haber ganado la fase local</span> de la <a href="http://www.uca.es/">Universidad de Cádiz</a>, AVBOT ha aparecido en algunos medios:<br /><ul><li><a href="http://www.uca.es/web/portada/noticias/2009/02/nt_09_03_18_01" class="external text" title="http://www.uca.es/web/portada/noticias/2009/02/nt_09_03_18_01" rel="nofollow"><i>Un robot para corregir vandalismos en Wikipedia gana (la fase local del) Concurso Universitario de Software Libre</i></a> (UCA.es)</li><li><a href="http://www.lavozdigital.es/cadiz/20090318/mas-actualidad/sociedad/estudiante-crea-robot-para-200903181630.html" class="external text" title="http://www.lavozdigital.es/cadiz/20090318/mas-actualidad/sociedad/estudiante-crea-robot-para-200903181630.html" rel="nofollow"><i>Un estudiante de la UCA crea un robot para corregir vandalismos en Wikipedia</i></a> (La voz digital)</li><li><a href="http://www.lavozdigital.es/jerez/20090319/sociedad/estudiante-crea-robot-corrige-20090319.html" class="external text" title="http://www.lavozdigital.es/jerez/20090319/sociedad/estudiante-crea-robot-corrige-20090319.html" rel="nofollow"><i>Un estudiante de la UCA crea un robot que corrige vandalismos en la Wikipedia</i></a> (La voz digital)</li><li><a href="http://www.andaluciainformacion.es/portada/?a=37734&i=97&f=0" class="external text" title="http://www.andaluciainformacion.es/portada/?a=37734&i=97&f=0" rel="nofollow">Un gaditano crea un robot policía para la Wikipedia</a> (Viva Cádiz)</li><li><a href="http://www.adn.es/local/cadiz/20090319/NWS-0289-UCA-Premio-estudiante.html" class="external text" title="http://www.adn.es/local/cadiz/20090319/NWS-0289-UCA-Premio-estudiante.html" rel="nofollow">Premio para un estudiante de la UCA</a> (<a href="http://es.wikipedia.org/wiki/ADN_%28peri%C3%B3dico%29" title="ADN (periódico)" class="mw-redirect">ADN.es</a>/Cádiz)</li></ul><br /><div style="text-align: center;"><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEguExjpFv1LWr85GnSWvirFgb6Mgg3ZUkVL_ct_YhNJamyOGOSg60U3eYYDdrzUgUjBMSxbs6GUhBRduVEfPCnRpiXA1anZ7tZqvEF4_f-eqzM_970ke7kwTcLkXUaEV3sTVleL_bSG3dw/s1600-h/Un+robot+para+corregir+vandalismos+en+Wikipedia+gana+el+Concurso+Universitario+de+Software+Libre+-+UCA.es+Universidad+de+C%C3%A1diz_1266000018128.png"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 265px; height: 400px;" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEguExjpFv1LWr85GnSWvirFgb6Mgg3ZUkVL_ct_YhNJamyOGOSg60U3eYYDdrzUgUjBMSxbs6GUhBRduVEfPCnRpiXA1anZ7tZqvEF4_f-eqzM_970ke7kwTcLkXUaEV3sTVleL_bSG3dw/s400/Un+robot+para+corregir+vandalismos+en+Wikipedia+gana+el+Concurso+Universitario+de+Software+Libre+-+UCA.es+Universidad+de+C%C3%A1diz_1266000018128.png" alt="" id="BLOGGER_PHOTO_ID_5437428841891647202" border="0" /></a><span style="font-style: italic;">Noticia en la <a href="http://www.uca.es/web/portada/noticias/2009/02/nt_09_03_18_01">web de la UCA</a></span><br /><br /></div><div style="text-align: left;">También me realizaron una entrevista la televisión local <a href="http://www.ondacadiz.es/">Onda Cádiz TV</a>. Si puedo, un día subiré el video.<br /><br />Tras <a href="http://www.concursosoftwarelibre.org/0809/premios-iii-concurso-universitario-software-libre">ganar la fase nacional del III Concurso Universitario de Software Libre</a> en la categoría de "Mejor proyecto de Comunidad", se hicieron eco en:<br /><ul><li><a style="font-style: italic;" href="http://softlibre.barrapunto.com/article.pl?sid=09/05/11/114228">Premios del III Concurso Universitario de Software Libre</a> (Barrapunto)</li><li><a href="http://www.linux-magazine.es/issue/49/088-092_ConcursoWebLM49.pdf"><span style="font-style: italic;">Artículo en Linux Magazine nº 49</span></a><br /></li></ul></div><br /><div style="text-align: center;"><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjvdsJGZG0XWqJUuAo_YK0Vp1F8eYMS9oa9zlGo4LJm28t-6jV4BgXvEUhZzA-1T7a3vRhxsxlP8OCPTRbKg3I2QF3yKFpzt4NwF3H31167xINR7BMNtEUwNcXX5SYN4-1NCNvI8_6TGOM/s1600-h/Premios+del+III+Concurso+Universitario+de+Software+Libre+%7C+Concurso+Universitario+de+Software+Libre_1266000363115.png"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 247px; height: 400px;" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjvdsJGZG0XWqJUuAo_YK0Vp1F8eYMS9oa9zlGo4LJm28t-6jV4BgXvEUhZzA-1T7a3vRhxsxlP8OCPTRbKg3I2QF3yKFpzt4NwF3H31167xINR7BMNtEUwNcXX5SYN4-1NCNvI8_6TGOM/s400/Premios+del+III+Concurso+Universitario+de+Software+Libre+%7C+Concurso+Universitario+de+Software+Libre_1266000363115.png" alt="" id="BLOGGER_PHOTO_ID_5437431060075131122" border="0" /></a><span style="font-style: italic;">Noticia sobre la </span><a style="font-style: italic;" href="http://www.concursosoftwarelibre.org/0809/premios-iii-concurso-universitario-software-libre">fase nacional</a><span style="font-style: italic;"> en la web del concurso</span></div>Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-42949115660669892082009-04-08T09:12:00.000-07:002009-04-08T09:36:05.197-07:00La sociología del vandalismoUna de las ventajas de estar realizando el programa sobre un proyecto tan grande y tan dinámico como <a href="http://wikipedia.org/">Wikipedia</a>, y a la vez tan trasparente, es que tengo acceso a ingentes cantidades de datos derivados de la <a href="http://es.wikipedia.org/wiki/Especial:Contribuciones/AVBOT">ejecución diaria</a> del robot.<br /><br />Entre las gráficas más expresivas que he generado se encuentra la siguiente:<br /><br /><div style="text-align: center;"><a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgajecXMQ53mEUNsM04QAbdBUqOIsYsqSS3_Rh7iIzgeYFhJa6fQD4HtV8eV8cHEuwZUVMWAXl8R-r4pRQii3wVgtgI-N4LyOSZgIInCRhmX7TnP2a6fxAP9dhvUdnc7dORR_GwBWtK6Zs/s1600-h/en+verano+cae.png"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 400px; height: 218px;" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgajecXMQ53mEUNsM04QAbdBUqOIsYsqSS3_Rh7iIzgeYFhJa6fQD4HtV8eV8cHEuwZUVMWAXl8R-r4pRQii3wVgtgI-N4LyOSZgIInCRhmX7TnP2a6fxAP9dhvUdnc7dORR_GwBWtK6Zs/s400/en+verano+cae.png" alt="" id="BLOGGER_PHOTO_ID_5322356504591507906" border="0" /></a><span style="font-size:85%;"><span style="font-style: italic;">Vandalismos por día durante el año 2008<br /><br /></span></span></div>En ella se observan los vandalismos que se realizaron durante casi todo el año 2008. <span style="font-weight: bold;">Se observan dos grandes caidas</span>. La primera entorno a los meses de junio-julio-agosto, y la segunda ocupa diciembre de 2008 y enero de 2009.<br /><br />No cuesta imaginar el motivo de los descensos. En junio-julio-agosto la gente del hemisferio norte se va a la playa (en el hemisterio sur es invierno y coincide con algún mes de vacaciones de colegio) y deja de vandalizar, a finales de año todo el mundo está más ocupado con las fiestas y las vacaciones de Navidad.<br /><br />Las constantes subidas y bajadas son las semanas. Los valles son los fines de semana (en los que la gente también deja en paz a Wikipedia), y los picos son los miércoles, que debe ser cuando están más aburridos en el trabajo, supongo.<br /><br />Tengo algunas gráficas más. Las iré poniendo más adelante.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-44266967700278985442009-04-06T05:10:00.000-07:002009-04-06T05:18:40.734-07:00IRC vs APIEn la documentación anterior hemos comentado que el robot captura los cambios recientes en tiempo real a través de un canal de IRC. Esto no viene activado por defecto. El software MediaWiki permite habilitarlo<span style="font-style: italic;"></span><span style="font-style: italic;"></span> en los ficheros de configuración, pero hay sitios web que utilizan MediaWiki y que por algún motivo no pueden o no desean usar un servidor de IRC para ello.<br /><br />La solución pasa por implementar la opción de capturar los cambios recientes a través de la <a href="http://www.mediawiki.org/wiki/API">API</a> de MediaWiki. Esto me mantendrá ocupado los próximos días.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-47782026830987265312009-04-01T13:47:00.000-07:002009-04-01T13:48:06.957-07:00Microsoft cerrará Encarta antes de fin de año<a href="http://encarta.msn.com/guide_page_FAQ/FAQ.html">Microsoft ha anunciado</a> que dejará de comercializar la <strong>enciclopedia <em>Encarta </em></strong>en los próximos meses, quedando cerrada el 31 de octubre de 2009 (exceptuando Japón, cuyo cierre se producirá el 31 de diciembre).<div class="content"> <p>Una parte del aviso deja entrever que es imposible competir contra otras formas de generar conocimiento que han conseguido gran popularidad en la red en los últimos años:</p> <p><strong></strong></p><blockquote><strong>Why are these Encarta Web sites and software products being discontinued?</strong><br />Encarta has been a popular product around the world for many years. However, the category of traditional encyclopedias and reference material has changed. People today seek and consume information in considerably different ways than in years past. As part of Microsoft’s goal to deliver the most effective and engaging resources for today’s consumer, it has made the decision to exit the Encarta business.</blockquote> <p>No son pocas las voces que proclaman a Wikipedia como victoriosa en esta batalla tácita por la difusión del conocimiento que se viene produciendo entre le enciclopedia libre y las enciclopedias <em>de toda la vida</em>. Por ejemplo, <em>El País</em> publica el siguiente titular "<em><a href="http://www.elpais.com/articulo/sociedad/Microsoft/rinde/Wikipedia/cierra/Encarta/anos/elpepisoc/20090401elpepisoc_8/Tes">Microsoft se rinde ante la Wikipedia y cierra Encarta tras 16 años</a></em>". </p> <p>En la <a href="http://lists.wikimedia.org/pipermail/foundation-l/2009-March/051143.html">lista de correo</a> de la Fundación Wikimedia han comentado la idea de solicitar la liberación de algunos contenidos de <em>Encarta</em>, para poder incorporarlos a Wikipedia. </p> <p>Recordar que recientemente Google sacó un proyecto de generación de conocimiento llamado <a href="http://knol.google.com/"><em>Knol</em></a>, y que tampoco ha tenido mucho impacto. </p></div>Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-27988812433164913552009-03-18T11:13:00.000-07:002009-03-18T11:15:09.017-07:00Fase localHoy 18 de marzo he presentado a <a href="http://avbot.blogspot.com/">AVBOT</a> en las <a href="http://softwarelibre.uca.es/josluca4">Jornadas de Software Libre y Conocimiento Abierto</a> de la UCA, como participante en el <a href="http://www.concursosoftwarelibre.org/">Concurso Universitario de Software Libre</a>. Para mi sorpresa <a href="http://www.uca.es/web/portada/noticias/2009/02/nt_09_03_18_01">he resultado ganador</a>. Hay que decir mucho a favor de los <a href="http://www.uca.es/softwarelibre/cusl3">otros proyectos presentados</a>, en concreto de <a href="http://libgann.wordpress.com/">Libgann</a> y <a href="http://freepadel.wordpress.com/">Free padel</a>. Aunténticas virguerías.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-36854440354291637072009-03-06T11:16:00.000-08:002009-03-06T11:20:09.246-08:00Logros alcanzadosSe detallan a continuación algunos de los <span style="font-weight: bold;">logros alcanzados</span>:<br /><ul><li>Más de <span style="font-weight: bold;">5000 horas de trabajo</span>.</li><li>Funcionamiento ininterrumpido comprobado durante más de 7 días (del 26 de noviembre al 2 de diciembre). Lo que dice mucho de su <span style="font-weight: bold;">estabilidad</span>.</li><li>Más de <span style="font-weight: bold;">200 mil ediciones</span> hasta la fecha. En torno a la mitad de ellas han sido reparaciones a páginas, el resto avisos a usuarios.</li><li>Tasa de <span style="font-weight: bold;">acierto del 99,5%</span> según datos de diciembre de 2008. Primero fue mejorado con las puntuaciones, posteriormente con los contrapesos.</li><li><span style="font-weight: bold;">Ningún bloqueo</span> por malfuncionamiento.<br /></li></ul>Algunos de los usuarios de Wikipedia también han expresado su satisfacción con el trabajo del bot. También pasó la autorización para poder ejecutarse con <a href="http://es.wikipedia.org/wiki/Wikipedia:Bot/Autorizaciones/Archivo_2008">19 votos a favor y 0 en contra</a>. Un signo de que la comunidad quiere que el bot continue trabajando lo constrituye la <a href="http://es.wikipedia.org/wiki/Usuario:AVBOT/Sugerencias">página de sugerencias</a>, desde donde se pueden pedir nuevas funcionalidades para el programa.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-88967555272066175392009-03-06T11:01:00.000-08:002009-03-06T11:10:58.450-08:00Dificultades superadasEn un principio el programa analizaba una edición tras otra, de forma <span style="font-weight: bold;">secuencial</span>. Este sistema era bastante lento, pues había que esperar a que se terminara de comprobar una edición para saltar a la siguiente y en Wikipedia en español el ritmo de modi caciones a veces superaba al ritmo de análisis. Para evitar esto se introdujo el uso de <span style="font-weight: bold;">hilos</span>, mediante la librería thread. Con esta solución, cada vez que llegan los datos de un cambio, se llama a la función de análisis. Si llegan varias modificaciones a la vez, no se espera a que termine una para empezar con la siguiente, ya que son independientes.<br /><br />Otro aspecto relevante es el <span style="font-weight: bold;">precompilado de expresiones</span>. Cada vez que era analizada una edición, había que pasar la lista de expresiones (varios cientos de ellas) sobre un texto que en algunas ocasiones era bastante extenso. Este proceso requería los siguientes pasos:<br /><ol><li>Leer la expresión regular.</li><li>Compilar la expresión regular.</li><li>Pasar la expresión regular compilada al texto objetivo.</li><li>Volver al paso 1 con la siguiente expresión.<br /></li></ol>Se puede evitar la compilación continua de una misma expresión si guardamos el resultado de dicha compilación. Por ello, se implentó una mejora en el cargador de expresiones, que en vez de guardar sólamente la expresión en cruda, guarda su compilación. La mejora fue drástica. De tener que compilar entorno a 600 expresiones por cada página analizada, lo que hacía que el proceso de análisis consumiera unos 10 segundos, se pasó a menos de una milésima de segundo por análisis. De nitivamente esta fue una <span style="font-weight: bold;">mejora crucial</span> en el programa.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-1468189959369698692009-03-04T05:11:00.001-08:002009-03-04T05:11:49.843-08:00Proyecto Fin de CarreraHoy miércoles 4 de marzo presenté a <span style="font-weight: bold;">AVBOT</span> como <span style="font-weight: bold;">Proyecto Fin de Carrera</span>. El nombre completo es "<span style="font-style: italic;">Detector y corrector automático de ediciones maliciosas en Wikipedia</span>".<br /><ul><li>Documentación: <a href="http://emijrp.googlepages.com/mpfc.pdf">Memoria</a>, <a href="http://emijrp.googlepages.com/documentacion.zip">Doxygen</a>, <a href="http://emijrp.googlepages.com/manual.instalacion.pdf">manual de instalación</a>, <a href="http://emijrp.googlepages.com/manual.usuario.pdf">manual de usuario</a>, <a href="http://emijrp.googlepages.com/PresentacinPFC.pdf">diapositivas</a>.</li><li>Código fuente: <a href="https://forja.rediris.es/projects/cusl3-avbot/">Rediris</a>, <a href="http://code.google.com/p/avbot/">Google Code</a>.</li></ul>Calificación: Matrícula de honor.Unknownnoreply@blogger.com2tag:blogger.com,1999:blog-6003805410980477239.post-86846109305352642482009-02-22T07:06:00.000-08:002009-02-22T07:11:26.543-08:00AlcanceSe trata de un <span style="font-weight: bold;">proyecto innovador</span>, surge de la necesidad de controlar las ingentes cantidades de información que vuelcan miles de usuarios alrededor del mundo en un proyecto colaborativo como Wikipedia. Wikipedia pertenece a la denominada Web 2.0, una nueva concepción de la World Wide Web en la que los usuarios ya no son meros consumidores de datos que los webmasters cuelgan en Internet, sino que ellos mismos juegan el papel de productores/consumidores de esa información.<br /><br />Esto conlleva una serie de ventajas y desventajas. Por un lado el potencial de producción crece exponencialmente, ya que cualquier persona con un navegador web puede modi car los contenidos y mejorarlos. Por otro lado la cantidad de errores bienintencionados o de mala fe también crece.<br /><br />Estas aportaciones no deseadas son, la mayoría de las veces, detectables fácilmente para un humano o un ordenador, ya que lo modi cado resalta sobre lo demás por contener expresiones malsonantes o texto sin sentido. En otras ocasiones esta tarea se hace más compleja para un computador por no poder ser descrito mediante un patrón sencillo.<br /><br />Existen muchas personas comprometidas con Wikipedia, y la mayoría de ellos controlan de manera altruista y voluntaria que nadie destruya los contenidos de la enciclopedia. Este esfuerzo podría dedicarse a la mejora o creación de nuevos artículos, en vez de a vigilar constantemente si los cambios producidos por usuarios nuevos o anónimos son malintencionados. Esto sería un gran bene cio para la comunidad. Para ello puede desarrollarse un programa que haga esta tarea, al menos con las ediciones claramente destructivas.<br /><br />El producto de este proyecto tiene por nombre AVBOT. Es el acrónimo de "AntiVandal BOT" (en español: "BOT AntiVándalos"). Este programa analizará las ediciones que se realicen en Wikipedia en español para buscar contribuciones maliciosas y las revertirá. <span style="font-weight: bold;">AVBOT no podrá sustituir nunca a una persona</span>, pues la capacidad de comprensión humana a la hora de leer un texto sobrepasa con creces la que pueda tener un programa de ordenador, aunque sí será de gran ayuda para revertir esos vandalismos repetitivos y monótonos.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-75556954097677030742009-02-15T18:40:00.000-08:002009-02-16T09:46:25.582-08:00ObjetivosSe pretende crear un <span style="font-weight: bold;">programa que proteja a <a href="http://es.wikipedia.org/">Wikipedia en español</a></span> (y por extensión a cualquier página web que utilice el software MediaWiki) de usuarios maliciosos que introduzcan modi caciones indeseadas. Para ello es necesario completar cada uno de los siguientes <span style="font-weight: bold;">objetivos</span>:<br /><ol><li>Lectura de los cambios que se producen en los artículos en tiempo real.</li><li>Análisis y valoración de cada uno de los cambios capturados en el "objetivo 1".</li><li>Tomar las acciones oportunas: actuar si el cambio es malicioso o dejarlo pasar si no supone peligro.</li><li>Mantener un log de las acciones realizadas para su depuración en caso de error.<br /></li></ol>Más adelante se hará una distinción entre modi caciones meramente maliciosas y ediciones de prueba. En cualquier caso, se trata de aportaciones que deben ser deshechas, pues no contribuyen a la mejora de <a href="http://wikipedia.org/">Wikipedia</a>.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-88175429794104952562009-02-10T10:10:00.001-08:002009-02-11T01:52:01.363-08:00Manual de instalación y usuarioYa están disponibles los <span style="font-weight: bold;">manuales de instalación y usuario</span> de <a href="http://es.wikipedia.org/wiki/Usuario:AVBOT">AVBOT</a> en formato PDF. El primer comenta los pasos necesarios para <span style="font-weight: bold;">integrar pywikipediabot + irclib + AVBOT</span>, y el segundo explica los <span style="font-weight: bold;">comandos básicos de ejecución</span> y algunos consejos.<br /><ul><li><a href="http://emijrp.googlepages.com/manual.instalacion.pdf">Manual de instalación</a></li><li><a href="http://emijrp.googlepages.com/manual.usuario.pdf">Manual de usuario</a><br /></li></ul>Unknownnoreply@blogger.com1tag:blogger.com,1999:blog-6003805410980477239.post-86212664022004982852009-01-30T14:31:00.000-08:002009-01-30T14:34:39.681-08:00Actividad durante 2008 y AVBOT<a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEidzHcsiZqDMcUONZC0QQ5M41_r770-Tl6-Rdj5ZZoDbpzkNI-rNPGzanWxAyT3USToZqlgd-lo1RDi3KqZTBkTDp8gMUcHoxKzKIjMWdA-Ym2zmCQfpNFsJtm4h7IXsuToqFlvBTzZrf4/s1600-h/reversiones.png"><img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 400px; height: 225px;" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEidzHcsiZqDMcUONZC0QQ5M41_r770-Tl6-Rdj5ZZoDbpzkNI-rNPGzanWxAyT3USToZqlgd-lo1RDi3KqZTBkTDp8gMUcHoxKzKIjMWdA-Ym2zmCQfpNFsJtm4h7IXsuToqFlvBTzZrf4/s400/reversiones.png" alt="" id="BLOGGER_PHOTO_ID_5297218548660300738" border="0" /></a>En la gráfica se observan las <span style="font-weight: bold;">reversiones</span> que se produjeron en Wikipedia en español cada día de 2008. La línea celeste representa aquellas que fueron realizadas por usuarios anónimos, y es la que menos se eleva de todas. Esto es así porque los anónimos no suelen dedicarse al mantenimiento de Wikipedia. La línea azul marino corresponde a los bibliotecarios y es muy similar a la rosa, correspondiente a AVBOT (desde marzo es el único robot que se dedica a revertir). <p><i>¿No deberia AVBOT hacer todo el trabajo? ¿Es que el robot no es eficiente?</i> Por desgracia no todas las ediciones inservibles son fácilmente indentificables por un robot. Muchísimas de las reversiones que realizan los usuarios registrados (línea amarilla) o los bibliotecarios (línea azul marino) son reparaciones a ediciones que contienen frases fuera de contexto, <a href="http://es.wikipedia.org/wiki/Wikipedia:Punto_de_vista_neutral" title="Wikipedia:Punto de vista neutral">no neutrales</a>, vandalismos muy especializados, errores de novatos, etc, las cuales no pueden ser ponderadas por un programa. Tratar que el bot repare esos casos llevaría a muchos falsos positivos y sería contraproducente.</p><p>Con anterioridad a marzo existía un programa (<a href="http://es.wikipedia.org/wiki/Usuario:BOTpolicia" title="Usuario:BOTpolicia">BOTpolicia</a>) que hacía la misma función que AVBOT pero era menos eficiente (a penas alcanza las 200 reversiones/día). A partir de marzo y hasta fin de año se ve que AVBOT ha hecho casi 600 reversiones/día de media en los puntos más altos, aunque normalmente hace 300-400. Durante el periodo estival el número de vándalos desciende, por lo que el robot tiene menos trabajo. A mediados de agosto y a finales de octubre el robot estuvo parado por mantenimiento de ahí que caiga hasta cero (se observa que la línea amarilla crece vertiginosamente para paliar la ausencia del robot).</p><p>Las constantes subidas y bajadas (dientes de sierra) corresponden a la diferencia de actividad durante la semana (los miércoles son los máximos y los fines de semana los mínimos).</p>Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-48328130653931370432008-12-22T05:29:00.000-08:002008-12-22T05:43:49.169-08:00Documentación con DoxygenMi tutor de PFC me recomendó que generara la <span style="font-weight: bold;">documentación del proyecto</span> con <a href="http://www.stack.nl/%7Edimitri/doxygen/">Doxygen</a>, que es software libre.<br /><br />Es muy fácil de usar, en el caso de Python, se incluyen comentarios debajo de cada clase o método, y Doxygen recoge todos esos datos y genera unos ficheros HTML con toda la información. También es posible exportarlo a Latex.<br /><br />En los próximos días seguiré documentando el código, y optimizándolo en la medida de mis posibilidades.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-34238458986297031812008-12-15T04:40:00.001-08:002008-12-15T04:49:44.068-08:00Lista de exclusionesUna de las cosas que quería implementar para aumentar la flexibilidad del robot era una <a href="http://es.wikipedia.org/wiki/Usuario:AVBOT/Exclusiones">lista de exclusiones</a>. Con ella es posible gestionar de manera transparente aquellas páginas que no deben ser vigiladas por el programa, ya que suelen ser propicias a contener expresiones poco enciclopédicas, y que provocan falsos positivos.<br /><br />El robot toma la lista de exclusiones instantes después de que alguien la modifique, ya que la mantiene bajo su control.<br /><br />De esta forma se reducen los errores de actuación del programa, y no interfiere en páginas que no le atañen explícitamente.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-70159323458266023952008-11-26T08:27:00.000-08:002008-11-26T08:34:04.084-08:00Contestación de informes de error<span style="font-weight: bold;">AVBOT</span> tiene una página en la que la gente puede <span style="font-weight: bold;">avisar de posibles errores</span> que esté cometiendo el programa a la hora de revertir vandalismos.<br /><br />¿Cómo es esto posible? Cuando una persona edita un artículo y el bot le revierte, hay dos posibilidades:<br /><ol><li>La persona ha vandalizado el artículo y el bot está actuando correctamente revirtiéndole.</li><li>La persona ha hecho una aportación legítima y el bot se ha equivocado al revertirle.</li></ol>Cada vez que el bot revierte una edición, deja un enlace en el resumen de edición, avisando de que es posible "darme un toque" y decirme que el bot ha errado.<br /><br />De vez en cuando la gente hace clic y me pone al corriente. No es muy frecuente pues el bot tiene un alto porcentaje de acierto, pero de vez cuando AVBOT falla, como todo en este mundo. La página donde se envian estos informes es <a style="font-weight: bold;" href="http://es.wikipedia.org/wiki/Usuario:AVBOT/Errores">Usuario:AVBOT/Errores</a>.<br /><br />Justo ahora estaba revisando los informes de los últimos días. A grosso modo me llegan entre 2 y 4 informes al día, y muchos de ellos son falsos, pues los vándalos no tienen bastante con destrozar el artículo, sino que luego se permiten el lujo de decir que el bot está funcionando mal, ¡cuando es incierto!<br /><br />En fin, hay gente para todo.Unknownnoreply@blogger.com0tag:blogger.com,1999:blog-6003805410980477239.post-24664699834554765322008-11-15T06:05:00.000-08:002008-11-15T06:33:08.563-08:00Cambio en el formato del "RSS"<span style="font-weight: bold;">AVBOT</span> captura los cambios recientes en los artículos a través de un <span style="font-weight: bold;">canal de IRC</span> en la red <tt>irc.wikimedia.org</tt>. Hoy 15 de noviembre en torno a las 2 de la madrugada (hora española), alguien de arriba cambió el formato de las líneas que se vierten en ese canal, provocando que AVBOT "se quedara ciego" y no viese ninguna edición. Lo único que percibía venía a través del <span style="font-weight: bold;">registro combinado</span>, cuyo formato por suerte no lo cambiaron.<br /><br />Ya he arreglado la expresión regular que dejó de funcionar por el cambio inesperado, y AVBOT vuelve a comportarse con normalidad.<br /><br />Expresión regular antes:<br /><tt>(?i)\[\[(?P<pageTitle>.*?)\]\] +(?P<nm>.*?) +http\://es\.wikipedia\.org/w/index\.php\?<span style="color:red;">title\=.*?</span>diff\=(?P<diff>\d+)\&oldid\=(?P<oldid>\d+) +\* +(?P<author>.*?) +\* +\(.*?\) +(?P<resume>.*)</tt><br /><br />Expresión regular después:<br /><tt>(?i)\[\[(?P<pageTitle>.*?)\]\] +(?P<nm>.*?) +http\://es\.wikipedia\.org/w/index\.php\?diff\=(?P<diff>\d+)\&oldid\=(?P<oldid>\d+) +\* +(?P<author>.*?) +\* +\(.*?\) +(?P<resume>.*)</tt><br /><br />Lo que sobraba está en rojo.<br /><br />De todo esto me di cuenta porque hoy <a href="http://es.wikipedia.org/w/index.php?title=Especial:Contribuciones&dir=prev&offset=20081115000807&limit=20&target=AVBOT">sólo estaba poniendo carteles de semiprotección</a>, algo bastante extraño.<br /><br />Debería avisar de alguna forma, no es la primera vez que cambian el formato del que se nutren no sólo mi bot, sino los de muchos otros programadores.Unknownnoreply@blogger.com1tag:blogger.com,1999:blog-6003805410980477239.post-34864162233438738872008-11-15T06:04:00.000-08:002008-11-15T06:05:00.081-08:00PresentaciónEste será el blog oficial de AVBOT.Unknownnoreply@blogger.com0