Metodi per l’individuazione dello spam

26 Maggio 2006

maggio 2006 Di seguito illustriamo alcune tecniche e alcuni software che permettono di individuare meglio lo spam. SpamAssassin. E’ un software ampiamente conosciuto nella comunità Linux. Rilasciato sotto licenza Apache 2.0, si tratta di un’efficace so …

maggio 2006 Di seguito illustriamo alcune tecniche e alcuni software
che permettono di individuare meglio lo spam.

SpamAssassin. E’ un software ampiamente conosciuto nella comunità
Linux. Rilasciato sotto licenza Apache 2.0, si tratta di un’efficace soluzione
antispam basata sull’analisi del contenuto dei messaggi di posta elettronica
ma che supporta anche l’utilizzo di DNS black list ed il filtraggio effettuato
su basi statistiche. Il programma, inoltre, è interfacciabile con altre applicazioni
sviluppate da terze parti. SpamAssassin è stato sviluppato in Perl da Justin
Mason e distribuito alla comunità di SourceForge.net nel mese di Aprile 2001.

I software che fanno uso di SpamAssassin riescono, sin dalla prima installazione,
a riconoscere correttamente un gran numero di e-mail indesiderate: ne è un esempio
SpamAware. Il programma presentato nelle prossime pagine sfrutta
a piene mani il “motore” di SpamAssassin. Quest’ultimo, infatti, viene fornito
con un ampio insieme di regole predefinite per determinare se un messaggio sia
considerabile spam o meno: all’interno dell’intestazione e del corpo del testo
dell’e-mail vengono ricercate corrispondenze con una serie di regular expressions.
Si tratta di stringhe di carattere che descrivono insiemi più ampi di stringhe,
in base a specifiche regole sintattiche. Esempi comuni di applicazioni che utilizzano
le regular expressions sono gli editor di testo: è possibile effettuare modifiche
al testo di un documento in base a modelli (pattern) specifici. Per esempio,
l’espressione (a|b)* denota l’insieme di tutte le stringhe costituite da una
qualsiasi combinazione delle lettere “a” e “b”, compresa la stringa vuota.

Nel caso di SpamAssassin, se il testo di un’e-mail riflette una o più delle
espressioni presenti nel suo database, al messaggio viene assegnato un punteggio
specifico ed inseriti degli elementi aggiuntivi (liberamente personalizzabili)
nell’intestazione. Quando il punteggio supera un certo valore limite, l’e-mail
viene trattata come spam.
Ma SpamAssassin supporta anche altre tecniche di filtraggio: l’uso delle liste
DNSBL, di filtri basati su checksum come DCC e di quelli bayesiani basati sull’apprendimento
da parte del software (necessitano della collaborazione dell’utente).

Word list e “regular expressions”. SpamAssassin, SpamAware,
Spamihilator, si basano sull’uso di word list (parole ampiamente ricorrenti
nei messaggi di spam) e regular expression. Questi elenchi sono generalmente
personalizzabili agendo sull’interfaccia del programma o sui file di configurazione.

DNSBL. Liste nere mantenute da diverse organizzazioni in Rete.
Raccolgono informazioni su indirizzi IP utilizzati dagli spammer, su open proxy
e open relay server. Gli open proxy sono generalmente sistemi che sono stati
violati da parte di hacker, aperti verso l’esterno e trasformati in macchine
facilmente utilizzabili per l’invio di spam. Tutto questo, generalmente, all’insaputa
dell’amministratore o del proprietario del sistema “vittima”. Gli open relay
server si comportano esattamente come gli open proxy sebbene siano nati con
lo scopo di facilitare la libertà d’espressione in Rete. Hanno però di solito
vita breve proprio perché sono sovente utilizzati dagli spammer.

Filtri “checksum-based”. I principali esempi sono DCC
– utilizzato, tra l’altro, da Spamihilator – e Vipul’s
Razor. La logica che sta alla base di questo sistema è il dato di fatto
che la stragrande maggioranza delle e-mail di spam viene inviata a molti account
utente, in tutto il mondo. Ogniqualvolta un server individua un’e-mail di spam
effettua il checksum della stessa ossia genera una sorta di “codice di controllo”
univoco che viene poi trasmesso ad un archivio centralizzato al quale può poi
attingere liberamente qualunque client.

Per ciascun messaggio ricevuto, viene confrontato il checksum con le informazioni
disponibili on line: se queste coincidono, significa che il messaggio è
da considerarsi come indesiderato. DCC sfrutta il protocollo UDP e non è
particolarmente esoso di banda (sebbene sia consigliabile attivarlo solo nel
caso in cui si utilizzi una connessione a banda larga).

Filtri bayesiani. A quasi due secoli e mezzo di distanza,
il teorema di Bayes è utilizzato da molti software nella lotta contro lo spam:
con la collaborazione dell’utente, i vari programmi antispam – dopo un periodo
iniziale di addestramento – saranno in grado di rilevare con grande precisione
i messaggi di spam, separandoli da quelli legittimi.