Este artículo presenta una característica basada en estadísticas de palabras desconocidas (fuera del vocabulario) quecomplementa las fuentes de información usadas en la decisión por parte de los filtros anti-spam actuales. Los experimentosincluyeron filtros anti-spam disponibles libremente como referencia: SpamAssassin, Bogofilter, SpamBayes y SpamProbe,así como también un clasificador puramente bayesiano. Los resultados muestran que la decisión basada en la característicapropuesta mejora el rendimiento de todos los filtros anti-spam sujetos a estudio.
INTRODUCCIÓN
El correo electrónico comercial no solicitado, comúnmente conocido como spam, sigue siendo un problema importante para los usuarios de Internet. Los principales efectos molestos del spam son la disminución de la productividad de los empleados, el desperdicio de un valioso espacio de almacenamiento en los servidores de correo, el perjuicio para el tráfico de Internet y el aumento de la posible pérdida de información en función de las políticas de filtrado. Por ejemplo, los autores de este trabajo estuvieron a punto de perder un correo electrónico de aceptación de trabajos debido a los filtros de spam.
Según varias fuentes de información, como Softscan [1] o Marshal [2], más del 90% del tráfico de correo electrónico es spam, con un índice de volumen creciente durante los últimos años. Los mayores porcentajes proceden de Europa y Asia (65% según las estadísticas de Marshal), seguidos de Norteamérica (18%).
Los spammers utilizan la estrategia de enviar una gran cantidad de correos electrónicos prácticamente sin coste, con un alto beneficio probable. Si un spammer obtiene tan sólo 100 respuestas por cada 1.000.000 de mensajes de correo electrónico, puede obtener un atractivo beneficio. Para más detalles, puede leer "Inside the SPAM Cartel: Trade Secrets From the Dark Side" [3].
En la literatura encontramos dos tendencias principales sobre técnicas de filtrado de spam: enfoques basados en reglas y en el aprendizaje [4-10].
Los filtros de spam basados en reglas analizan tanto la cabecera como el cuerpo de los mensajes de correo electrónico en busca de contenido sospechoso. Cada regla activada suma una puntuación al correo electrónico. Si la puntuación alcanza un valor umbral, el correo electrónico se clasifica como spam.
Las reglas abarcan diferentes amenazas, como el formato sospechoso (las partes de HTML y de texto son diferentes o el cuerpo del mensaje tiene entre un 80 y un 90% de líneas en blanco), un origen débil propenso a enviar spam (el remitente es un relé abierto confirmado o el remitente es un proxy abierto), palabras comunes en el spam (contiene una versión enmascarada de cialis o viagra), codificaciones o caracteres ilegales (demasiados caracteres ilegales en bruto en el asunto), etc [11].
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Selección automática y configuración de parámetros de los componentes principales del software de Big Data en función del patrón de retención
Artículo:
Política óptima de reposición del comprador en el modelo de inventario integrado para artículos imperfectos
Artículo:
Estabilidad del cascarón bimetálico parabólico-cónico axisimétrico poco profundo mediante teoría no lineal
Artículo:
Estabilidad absoluta y sincronización maestro-esclavo de sistemas con no linealidades dependientes del estado
Artículo:
Minimización del coste de montaje de un producto interrelacionado en cadena dimensional mediante el algoritmo ABC
Libro:
Metodología del marco lógico para la planificación, el seguimiento y la evaluación de proyectos y programas
Folleto:
Análisis de rentabilidad económica y financiera
Artículo:
Estudio sobre la migración global de materiales plásticos de empaque usados en la industria de alimentos
Artículo:
Emisiones globales de gases de efecto invernadero provenientes de materiales de construcción residencial y comercial: estrategias de mitigación para 2060