FILTROS QUE CONTRAATACAN

Agosto 2003

Puede que seamos capaces de mejorar la precisión de los filtros bayesianos de spam, haciéndoles seguir los enlaces para ver que hay en el otro extremo. Richard Jowsey de death2spam ahora lo hace en los casos extremos, y reporta que funciona bien.

¿Por qué hacerlo únicamente en casos extremos? ¿Y por qué hacerlo sólo una vez?

Como ya he mencionado en ¿Mataran los Filtros al Spam?, seguir todas las direcciones URL en un correo no deseado tendría un divertido efecto secundario. Si los clientes de correo electrónico populares hicieran esto con el fin de filtrar el spam, los servidores de los spammers recibirían una seria paliza. Cuanto más pienso en ello, mejor idea me parece. Esto no es sólo divertido; sino que sería difícil imaginar un contraataque más perfectamente dirigido a los spammers.

Así que me gustaría sugerir una función adicional a aquellos que trabajan en los filtros de spam: un modo de "castigo" que, si está activado, haria que un spider analizara todos los url de un correo no deseado sospechoso n veces, donde n puede ser definido por el usuario. [1]

Como muchas personas han señalado, uno de los problemas con el sistema de correo electrónico actual es que es demasiado pasivo. Hace cualquier cosa que le digas. Hasta ahora todas las sugerencias para solucionar el problema parecen implicar nuevos protocolos. Ésta no.

Si se utilizan ampliamente, los filtros de recuperación automática para spam harían que el sistema de correo electrónico rebote. El gran volumen de spam, que hasta hoy ha trabajado en favor del spammer, operaria ahora en su contra, como una rama que se regresa y le pega en el rostro. Los filtros de recuperación automática de spam elevarían los costos de los spammers, y bajarían sus ventas: su uso de ancho de banda se iría a las nubes, y sus servidores se detendrían con la carga, lo que haría que no estén disponibles para las personas que han respondido al spam.

Bombea un millón de emails por hora, recibe un millón de visitas por hora en tus servidores.

Queremos asegurarnos de que esto se haga solamente a mensajes de spam sospechosos. Como regla general, cualquier url enviado a millones de personas probablemente sea una url de spam, por lo que enviar cada solicitud http en cada correo electrónico funcionaria bien casi todo el tiempo. Pero hay unos pocos casos en que esto no es cierto: las direcciones url en la parte inferior de los correos que envían servicios de correo electrónico gratuito como Yahoo Mail y Hotmail, por ejemplo.

Para proteger estos sitios, y para prevenir el abuso, la auto-recuperación debe estar combinada con las listas negras de sitios anunciados por spam. Sólo los sitios en una lista negra serán rastreados, y los sitios serán incluidos en la lista negra sólo después de ser inspeccionados por humanos. La vida de un correo no deseado debe ser de varias horas por lo menos, así que debe ser fácil actualizar dicha lista a tiempo para interferir con spam promocionando un nuevo sitio. [2]

Alto volumen de auto-recuperación sólo sería práctico para usuarios de conexiones de banda ancha, pero hay suficientes de estas para causar serios problemas a los spammers. De hecho, esta solución refleja pulcramente el problema. El problema con el spam es que para llegar a unas pocos crédulos el spammer envía correo a todo el mundo. Los destinatarios no crédulos son sólo daño colateral. Pero la mayoría de no crédulos no dejaran de recibir spam, hasta que puedan detener (o amenazar con detener) a los ingenuos de responder a este. Los filtros de recuperación automática de spam les ofrecen una manera de hacer esto.

¿Matara esto el spam? No del todo. Los spammers más grandes podrían probablemente proteger sus servidores contra filtros de auto-recuperación. Sin embargo, la forma más fácil y barata para que lo hagan sería incluir vínculos funcionales de cancelación de suscripción en su correo electrónico. Y esto sería una necesidad para los peces pequeños, y para sitios "legítimos" que contratan spammers para promoverse. Así que si los filtros de auto-recuperación se generalizan, se convertirán en filtros de cancelación de suscripción automáticos.

En este escenario, el spam, como los accidentes del OS, virus y pop-ups, se convierte en una de esas plagas que sólo afectan a las personas que no se molestan en utilizar el software adecuado.

Notas

[1] Los filtros de auto-recuperación tendrán que seguir redirecciones, y deberán en algunos casos (por ejemplo, una página que sólo dice "haga clic aquí") seguir más de un nivel de enlaces. Asegúrate también de que las peticiones http no se puedan distinguir de las de los navegadores Web más populares, incluyendo el orden y la referencia.

Si la respuesta no vuelve dentro de x cantidad de tiempo, tiene por defecto una probabilidad de spam bastante alta.

En lugar de hacer n constante, podría ser una buena idea hacerlo una función del número de spams que se han visto mencionando el sitio. Esto agrega un nivel adicional de protección contra el abuso y los accidentes.

[2] La versión original de este artículo utilizó el término "lista blanca" en lugar de "lista negra". Aunque iban a funcionar como listas negras, preferí llamarlas listas blancas porque podría hacerlas menos vulnerables a ataques legales. Sin embargo, esto sólo parece haber confundido a los lectores.

Probablemente debe haber múltiples listas negras. Un único punto de fallo sería vulnerable tanto al ataque como al abuso.

Gracias a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond, y Richard Jowsey por leer borradores de esto.

Traducido de Filters That Fight Back por Paul Graham.
Traducción: Armando Alvarez