Vraag & Antwoord

Programmeren

Met CRE blok garbagetekst detecteren

2 antwoorden
  • Wie heeft er voor mij een opzetje of een idee hoe met CRE (Common Regular Expression Operators) een filter op te zetten die blokken met garbagetekst detecteerd zoals hieronder staat.....Dit om een filter in de body van email spam te laten vinden. formant cartwheelscornful alkene protrusivetyson dictatorial backgroundindwell serviceman shortagesideboard apportion calibrateozark yucatan toemedusa shea autopsyohmmeter log citroenconifer meteoric secretepeaky numeral packagesummation crabapple holmesboise agave shrillycatnip malign avocationblacken mullen broadloomocarina annex storeroombasidiomycetes soothsay binghamdivisive dowry cornflowerargus cachalot nimbussouthern courteous tanagerchiton patron spinforgiven scrounge resincoconut biology wifedungeon indecisive mccrackenproust dade ironwoodfurl neuron concussionreleasable alloy decaturinterpol accommodate dinnerwareduly teddy journalcriteria tin augmentdiversify ramsey melvincave hutchins sierrafain dirge achingmidscale bayed nihoffset brotherhood r'sguilford gatlinburg mittgoucher mckay padlockrickshaw cane sluggingtemplate mig bespokecomplex
  • de beste indicatie dat het om zo'n lap garbagetekst gaat lijkt mij het feit dat er geen leestekens, zoals punten of komma's instaan. Hoewel het me lastig lijkt om te bepalen om de hoeveel woorden een leesteken zou moeten staan, maar daar zou je een striktheidsoptie aan kunnen hangen. het zou dus zoiets zijn als een woord, gevolgd door een spatie (of het einde van de zoekstring)en dat dan een x aantal keer om te bepalen of het om spam gaat. Een stuk van 40 woorden zonder leestekens heeft een goede kans spam te zijn, al is het natuurlijk nooit met zekerheid te zeggen, er zijn genoeg mensen die te weinig leestekens gebruiken. Je zou ook nog kunnen kijken of er newlines tussen staan, aangezien dat minder waarschijnlijk is bij spam. Ik had eerst [code:1:2ec2677870]/(\b\w+\b\s+){40,}/[/code:1:2ec2677870] bedacht, maar in jouw voorbeeld staat toch stiekum een leesteken. Misschien is het handig om wel een paar leestekens die binnen woorden voorkomen wel toe te staan: [code:1:2ec2677870]/(\b[\w\'\"-]+\b\s+){40,}/[/code:1:2ec2677870] \s+ zou je nog kunnen vervangen door (\s+|\n?) als je toch newlines binnen zo'n blok wilt toe staan

Beantwoord deze vraag

Weet jij het antwoord op deze vraag? Registreer of meld je aan met je account

Dit is een gearchiveerde pagina. Antwoorden is niet meer mogelijk.