Solutie antispam - filtre bayesiene

7x puncte

categorie: Informatica

nota: 10.00

nivel: Facultate

Referat despre Solutie antispam - filtre bayesiene
SPAM prin e-mail
Spam-ul prin e-mail, cunoscut si ca "junk mail" este un tip de spam ce presupune trimiterea de mesaje aproape identice la un umar mare de destinatari. Un sinonim pentru spam este "unsolicited bulk e-mail" (UBE). Mai intalnim si termenul de "unsolicited commertial e-mail" (UCE). Spam-ul prin email a luat amploare cons[...]
DOWNLOAD REFERAT

Preview referat: Solutie antispam - filtre bayesiene

Referat despre Solutie antispam - filtre bayesiene
SPAM prin e-mail
Spam-ul prin e-mail, cunoscut si ca "junk mail" este un tip de spam ce presupune trimiterea de mesaje aproape identice la un umar mare de destinatari. Un sinonim pentru spam este "unsolicited bulk e-mail" (UBE). Mai intalnim si termenul de "unsolicited commertial e-mail" (UCE). Spam-ul prin email a luat amploare constant din 1990. Botnets,
retele de computere infectate cu virusi sunt folosite pentru a trimite aproximativ 80% dintre spam-uri. Statutul legal al spam-urilo variaza de la o juristictie la alta. In SUA, spam-urile au fost declarate legale cu condita ca mesajul ca se incadreze in anumite specificatii.
Un sondaj realizat in 2004 a estimat ca spam-urile produc pierderi de 21,58 de miliarde de dolari anual in SUA, prin efectuarea de trafic de internet costisitor si ocuparea timpului utilizatorilor internet.

Spam-ul este in continua crestere, un raport de securitate Miscrosoft precizand faptul ca peste 97% dintre e-mail-urile trimise zilnic sunt spam-uri. In 1978 un spam e-mail cu caracter publicitar a fost trimis de catre Gary Thuerk la 600 de adrese, reprezentand toti utilizatorii ARPANET de la momentul respectiv. In 2002 erau trimise 2,4 miliare de spam-uri pe zi, in 2004 – 11 miliarde, 2005 – 30 de miliarde, 2006 – 55 de miliarde, 2007 – 90 de miliarde, iar in 2007 – 100 de miliarde. Figura 1. Exemplu de inbox cu spam-uri

Botnet
Botnet este jargonul dat pentru o colectie de agenti software sau roboti care ruleaza autonom si automat. Cu toate ca termenul de botnet poate fi folosit pentru a referi orice fel de grup de roboti, cum ar fi roboti IRC, termenul este folosit de obicei pentru a referi o colectie de computere virusate ( numite zombie computers ) ce ruleaza aplicatii instalate prin exploatarea vulnerabilitatilor web : viermi ( worms ), troieni ( trojan horses ) sau backdoors. Computerele virusate pot fi controlate de un bot master pentru efectuarea diferitelor sarcini, cel mai des pentru a trimite spam-uri e-mail. Figura 2. Exemplu de creare a botnet si utilizarea lui pentru a trimiterea de spam-uri

1) Un operator botnet trimite virusi sau viermi sau troieni ce infecteaza computerele utilizatorilor, virusi ce contin aplicatia robot.
2) Robotul de pe PC se logheaza pe un anumit server de tip Command&Control ( de obicei un server de IRC, dar in unele cazuri si un server web)
3) Spammer-ul cumpara acces la botnet de la operatorii serverului.
4) Spammer-ul trimite instructiuni prin serverul IRC la computerele infectate, facandule sa trimita mesaje spam serverelor de mail.
Acest tip de roboti este folosit pentru diferite scopuri, inclusiv pentru atacuri de tip denial-of-service, crearea sau folosirea frauduloasa de servere SMTP pentru spam-uri, frauda de clickuri, furtul de coduri de activare pentru aplicatii, credentiale pentru logari si
informatii financiare cum ar fi numere de carti de credit.

Comunitatea de operatori botnet este intr-o continua rivalitate, cu privire la cine are mai multi roboti, cine are latimea de banda cea mai mare si cine are cele mai performate computere, cum ar fi computerele folosite la serverele universitatilor, corporatiilor sau guvernelor.

Teorema lui Bayes
Teorema lui Bayes este una din teoremele fundamentale ale teoriei probabilitatii, care determina probabilitatea apartenentei evenimentelor si a obiectelor la o anumita grupa. A fost enuntata de matematicianul britanic Thomas Bayes.

Formul lui Bayes este :
unde :
P(A) este probabilitatea marginala a lui A.
P(A|B) este probabilitatea lui A conditionata de B.
P(B|A) este probabilitatea lui B conditionata de A.
P(B) este probilitatea marginala a lui B.

Exemplu de utilizare :
Intr-o scoala sunt 60% baieti si 40% fete. Fetele poarta pantaloni si fuste in numar egal, iar baietii doar pantaloni. Un observator vede de la distanta un elev ce poarta pantaloni. Care este probabilitatea ca acel elev sa fie fata ?

Raspunsul il putem afla folosing formula lui Bayes, unde :
P(A) – probabilitatea ca elevul sa fie fata indiferent de alta informatie. Avand in vedere ca observatorul vede un student oarecare, acest lucru ca fiecare elev are aceeasi probabilitate de a fi vazut, si faptul ca sunt 40% fete, inseamna ca aceasta probabilitate e 0.4

P(B|A) – probabilitatea ca un elev sa poarte pantaloni, avand in vedere ca elevul este fata. Aceasta este de 0.5 deoarece stim ca fetele poarta si fuste si pantaloni in numar egal.

P(B) – probabilitatea ca elevul sa poarte pantaloni indiferent de alta informatie. Deoarece toti baietii poarta pantaloni, si jumatate de fete poarta pantaloni aceasta este de 0.5 x 0.4 + 1 x 0.6 = 0.8
Cu aceste informatii aplicand formula aflam ca probabilitatea noastra este egala cu :

Filtre Bayesiene
Filtrarea Bayesiana a spam-urilor este o tehnica statistica de filtrare a e-mailurilor. Ea se foloseste de clasificarea naiva Bayes pentru a identifica spam-uri e-mail. Primul program de filtrare de e-mailuri care sa foloseasca clasificarea Bayes a fost iFile creat de Jason Rennie publicat in 1996. Programul era folosit pentru a sorta e-mailurile pe foldere.

Prima publicatie academica privind filtrele Bayesiene, intitutalata "A Bayesian approach to filtering junk e-mail" a fost realizata de M.Sahami, S.Dumais, D. Heckerman si E.Horvitz in 1998. Variatii ale acestei tehnici de baza au fost implementate in lucrari de cercetare si
produse software comerciale.
DOWNLOAD REFERAT
« mai multe referate din Informatica

CAUTA REFERAT

TRIMITE REFERAT CERE REFERAT
Referatele si lucrarile oferite de E-referate.ro au scop educativ si orientativ pentru cercetare academica.