Site Navigation


Currently:
reCAPTCHA: Geweldig idee, gammele basis

Posted on Saturday 26 May 2007

  • dutch
  • english

Log reCAPTCHASpam sucks. Of het nu in onze e-mail inboxen of weblog comments is, we willen geen zinloze reclame voor troep die we niet nodig hebben. Wij eigenaren van weblogs en websites willen al helemaal niet dat onze thuisbasis op het internet verwordt tot een aanplakplaats voor deze producten, dus we doen er van alles aan om dat te voorkomen. De meeste van deze maatregelen zijn gebaseerd op het meest basale wat we van comment spam weten: het wordt nooit geplaatst door mensen.

De meest effectieve manier om comment spam tegen te gaan is tevens de meest simpele: vraag de commenter simpelweg te bewijzen dat hij/zij menselijk is, alvorens enig commentaar toe te staan. De CAPTCHA was geboren: een “Completely Automated Public Turing test to tell Computers and Humans Apart”, waarbij de menselijke gebruiker wordt gevraagd een plaatje te decoderen, waarop een woord of een combinatie van letters en cijfers is afgebeeld; vervormd om automatische tekstherkenning (OCR) te voorkomen.

reCAPTCHAWereldwijd lossen mensen dagelijks zo’n 60 miljoen van deze CAPTCHA’s op, terwijl organisaties als The Internet Archive hun nek breken over onleesbare woorden bij het digitaliseren van boeken. Het was dan ook een kwestie of tijd voor iemand de simpele optelsom maakte om tot de conclusie te komen dat één plus één twee is. Het resultaat: reCAPTCHA. Door lastig te herkennen woorden uit ingescande boeken van The Internet Archive te gebruiken, in plaats van willekeurig gegenereerde troep, wordt het werk van CAPTCHA-invullers wereldwijd gebundeld en aangewend om te helpen bij het digitaliseren van boeken.

Ik zie echter wel een probleem: het zou onmogelijk zijn om slechts niet-OCR-bare woorden te gebruiken voor verificatie: het systeem zou dan onmogelijk kunnen controleren of de gebruiker het juiste antwoord heeft ingevuld, dat weet het zelf tenslotte niet. reCAPTCHA lost dit op door twee woorden aan te bieden in iedere CAPTCHA, waarvan één reeds bekend is, de andere nog onbekend. De verificatie gebruikt slechts het deel dat reeds bekend is, terwijl het andere deel wordt doorgespeeld aan (in dit geval) The Internet Archive, om hen te helpen het te decoderen. In andere woorden: het systeem dat niet-menselijke commenters moet trakteren op een plaatje dat niet door computers is te herkennen, gebruikt een plaatje dat reeds door een computer is herkend! Als een spammer dus een OCR-systeem gebruikt dat net zo goed is als het syteem dat reCAPTCHA traint, wordt daarmee in één klap waardeloos. Daarnaast zal de spammer waarschijnlijk het onherkenbare deel van elke reCAPTCHA vervuilen met troep, het is tenslotte toch niet nodig voor de verificatie, waardoor het hele project onbruikbaar wordt.

Natuurlijk kan dit scenario worden voorkomen. Het “herkenbare” deel van de reCAPTCHA zou zo recentelijk mogelijk gedecodeerd moeten zijn door mensen en het zou idealiter willekeurig moeten zijn welke van de twee worden in de reCAPTCHA “herkenbaar” en welke “onbekend” is. Ik hoop dat de mensen van reCAPTCHA hier ook aan gedacht hebben.


  • Bookmark using:

1 Comment for 'reCAPTCHA: Geweldig idee, gammele basis'

  1.  
    6 June, 2007 | 15:09
     

    Je kunt toch ook instellen dat woorden pas geaccepteerd worden als ze meerdere keren correct getagged zijn? voorkom je in 1x een hele zooi vervuiling mee. Google Image Labeler werkt ook met een dergelijk systeem.

Leave a comment

(required)

(required)


Information for comment users
Line and paragraph breaks are implemented automatically. Your e-mail address is never displayed. Please consider what you're posting.

Use the buttons below to customise your comment.


RSS feed for comments on this post | TrackBack URI