reCAPTCHA: [dutch] Geweldig idee, gammele basis[/dutch][english] Great idea, shaky base[/english]

Log reCAPTCHA[dutch]Spam sucks. Of het nu in onze e-mail inboxen of weblog comments is, we willen geen zinloze reclame voor troep die we niet nodig hebben. Wij eigenaren van weblogs en websites willen al helemaal niet dat onze thuisbasis op het internet verwordt tot een aanplakplaats voor deze producten, dus we doen er van alles aan om dat te voorkomen. De meeste van deze maatregelen zijn gebaseerd op het meest basale wat we van comment spam weten: het wordt nooit geplaatst door mensen.

De meest effectieve manier om comment spam tegen te gaan is tevens de meest simpele: vraag de commenter simpelweg te bewijzen dat hij/zij menselijk is, alvorens enig commentaar toe te staan. De CAPTCHA was geboren: een “Completely Automated Public Turing test to tell Computers and Humans Apart”, waarbij de menselijke gebruiker wordt gevraagd een plaatje te decoderen, waarop een woord of een combinatie van letters en cijfers is afgebeeld; vervormd om automatische tekstherkenning (OCR) te voorkomen.

reCAPTCHAWereldwijd lossen mensen dagelijks zo’n 60 miljoen van deze CAPTCHA’s op, terwijl organisaties als The Internet Archive hun nek breken over onleesbare woorden bij het digitaliseren van boeken. Het was dan ook een kwestie of tijd voor iemand de simpele optelsom maakte om tot de conclusie te komen dat één plus één twee is. Het resultaat: reCAPTCHA. Door lastig te herkennen woorden uit ingescande boeken van The Internet Archive te gebruiken, in plaats van willekeurig gegenereerde troep, wordt het werk van CAPTCHA-invullers wereldwijd gebundeld en aangewend om te helpen bij het digitaliseren van boeken.

Ik zie echter wel een probleem: het zou onmogelijk zijn om slechts niet-OCR-bare woorden te gebruiken voor verificatie: het systeem zou dan onmogelijk kunnen controleren of de gebruiker het juiste antwoord heeft ingevuld, dat weet het zelf tenslotte niet. reCAPTCHA lost dit op door twee woorden aan te bieden in iedere CAPTCHA, waarvan één reeds bekend is, de andere nog onbekend. De verificatie gebruikt slechts het deel dat reeds bekend is, terwijl het andere deel wordt doorgespeeld aan (in dit geval) The Internet Archive, om hen te helpen het te decoderen. In andere woorden: het systeem dat niet-menselijke commenters moet trakteren op een plaatje dat niet door computers is te herkennen, gebruikt een plaatje dat reeds door een computer is herkend! Als een spammer dus een OCR-systeem gebruikt dat net zo goed is als het syteem dat reCAPTCHA traint, wordt daarmee in één klap waardeloos. Daarnaast zal de spammer waarschijnlijk het onherkenbare deel van elke reCAPTCHA vervuilen met troep, het is tenslotte toch niet nodig voor de verificatie, waardoor het hele project onbruikbaar wordt.

Natuurlijk kan dit scenario worden voorkomen. Het “herkenbare” deel van de reCAPTCHA zou zo recentelijk mogelijk gedecodeerd moeten zijn door mensen en het zou idealiter willekeurig moeten zijn welke van de twee worden in de reCAPTCHA “herkenbaar” en welke “onbekend” is. Ik hoop dat de mensen van reCAPTCHA hier ook aan gedacht hebben.
[/dutch]

[english]Spam sucks. Whether it is in our email inboxes or weblog comments, we don’t want useless messages advertising stuff we don’t need. We owners of weblogs and websites especially don’t want our home sweet home to become the advertising spot for these products, so we take measures to prevent it, almost all of them based on the most basic fact we know about all comment spam: it is never posted by humans.

The most effective way to prevent comment spam is also the most simple: simply ask the commenter to prove he/she is human before allowing any comments to be posted. So the CAPTCHA was born: a “Completely Automated Public Turing test to tell Computers and Humans Apart”, where the human commenter is asked to decode an image representing a word or a combination of letters and digits, garbled to make automatic recognition (OCR) impossible.

reCAPTCHAHuman beings worldwide sort an estimated 60 million of these CAPTCHA’s every day, while organisations like the Internet Archive struggle to digitize badly recognizable books. It was only a matter of time before someone figured out 1+1 equals two. And someone finally did: reCAPTCHA. By using words scanned from books for the Internet Archive for verification, instead of randomly generated garbage, the global effort of solving CAPTCHA’s is channeled and put to good use in aiding the digitizing of books.

However, I do see one problem: it would be impossible to use just the non-OCRable words for verification: the system would not be usable as a verification, since the checking end would not know the correct answer. reCAPTCHA solves this by using two words for each captcha: one of which has been correctly identified, the other yet unknown. The verification only uses the word that has already been identified, while the other part is passed on to (in this case) the Internet Archive to help them in decoding it. In other words: the system that has to challenge non-human commenters with a string computers cannot decode uses a word that has already been decoded by a computer! Assuming a spammer’s OCR-system might ever reach the same level of expertise as the system reCAPTCHA is teaching, any reCAPTCHA instantly becomes worthless. Moreover, the spammer would probably flood the “unknown” part of the captcha with garbage, since it is not needed for the verification anyway, rendering the entire project useless.

Of course this scenario can be prevented. The “reconizable” part of the reCAPTCHA should be as recently decoded by humans as possible and it should ideally be random which of the two words in the reCAPTCHA is the “recognizable” and which is the “unknown”. I hope the guys at reCAPTCHA thought of this.
[/english]

Origami voor professionals

Papieren schedelIk kan er geen woord van lezen, maar de schrijver deze blogpost (in het Japans, engelse houtje-touwtje vertaling via babelfish) demonstreert een wel heel bijzonder speeltje: een menselijk skelet, volledig te vouwen van papier!

Papieren wervelsVoor ¥ 4,410 (een slordige 27 euro) ben je bij Amazon Japan in het bezit van je eigen bouwpakket, goed voor toch zeker zo’n 12 uur vouwplezier. Geduld is een schone zaak en het resultaat mag er wezen, maar of ik dit zou overleven betwijfel ik.

En dan te bedenken dat de ondertitel van de site “Featuring Lifehacks, Personal Productivity Tooooools, Somethyng stylish and beautiful” is. Laten we het maar op dat laatste houden ;)

Voltooid papieren skelet
(foto’s copyright schrijver oorspronkelijke artikel)

Great Pockets

Viral marketing lijkt zo ongeveer het enige te zijn wat nog werkt tegenwoordig. Misschien is dit toch wat voor mij, soms voel ik me alsof ik er nu al zo bij loop (en nee, ik zeg lekker niet waar het reclame voor is):

Great Pockets

Great Pockets

Kinderdijk

Als je er bij nadenkt is het eigenlijk maar gek. Jaarlijks stoppen er duizenden bussen vol Japanse, Amerikaanse en god weet waar ze nog meer vandaan komen toeristen, maar wij Nederlanders komen er maar zelden. Ik heb het natuurlijk over typisch Nederlandse toeristische trekpleisters als het Keukenhof, de Deltawerken en natuurlijk Kinderdijk. Eigenlijk gek natuurlijk en zeker reden genoeg om eens een kijkje in laatstgenoemde te nemen.

Met een indrukwekkende negentien bewaarde windmolens is Kinderdijk namelijk één van de beter bewaarde stukjes polderhistorie in Nederland. Erg gaaf om eens te zien, al was het alleen maar om je eens toerist in eigen land te voelen tussen de Japanners, Amerikanen en god weet waar ze nog meer vandaan komen.

Panoramisch uitzicht op de molens van Kinderdijk

Twitter vs. Jaiku – Why choose?

[dutch]
Co-presence is helemaal hot. Via Elger hoorde ik van Jaiku, via André van Twitter en beide systemen zijn, op wat kleine features na, vrijwel identiek. Ik meldde me op beide aan om eens te kijken waar alle ophef om te doen was.
[/dutch]
[english]
Co-presence seems to be really hot these days. Since Elger told me about Jaiku, and André invited me to Twitter, which are apart from some features basically identical, I joined both to see what all the fuzz was all about.
[/english]
JaikuTwitter

Continue reading 

OmniGraffle Tombstone Diagram Stencil

[dutch]Tombstone Diagrams worden gebruikt om de werking van vertaalsystemen te visualiseren. Ik vond het wel handig deze diagrammen in OmniGraffle te kunnen maken, dus heb ik even een stencil inelkaargeknutseld. Veel plezier ermee!
[/dutch]
[english]Tombstone Diagrams are used to visualise the functioning of translator systems. I thought it would be useful to be able to make these diagrams in OmniGraffle, so I mashed up a simple stencil. Enjoy! [/english]

Screenshot of the stencil’s contents

Download Stencil
Download Tombstone Diagram Stencil

Blauwe enveloppen…

Blauwe envelop… zijn helemaal niet vervelend om te ontvangen zo lang je nog een armzalige student bent :)
Michel krijgt honderdéénenveertig euro terug*. Mooi vakantievoorschot :D

*) voorlopige aanslag.

Bril-jant!

NerdbrilZe klaagde al een tijdje dat ze kippig was, mensen van een afstandje moeilijk herkende en verkeersborden al helemaal het liefste ontweek: Hester wilde een bril! Niet zo gek dus dat ik vorige week mee moest naar de brillenwinkel om er toch zeker maar voor te zorgen dat mijn lieve vriendinnetje de winkel niet als nerd, oud vrouwtje of andersoortig stereotype met bril zou verlaten.

Al snel had ze de volledige inhoud van de winkel (exclusief personeel, toonbanken en dat soort zaken) op haar neus had gehad. We kwamen tot de conclusie dat ronde brillen de associatie “oud vrouwtje” opriepen en brillen met een dikke rand al snel wel erg streng stonden, waardoor we na heel veel passen, meten en eliminatie uiteindelijk op een selectie van vijf geschikte kandidaten kwamen, waarvan er natuurlijk maar één de gelukkige bril is geworden om voortaan op de neus van mijn vriendinnetje te prijken.

Vandaag haalden we ‘m op, dus without further delay:

Hester’s nieuwe bril

Een dag voor mezelf

Aangezien mijn snowboard tijdens een eerste weekje wintersport een vreemde vochtplek ontwikkeld had, waardoor ik naar Den Haag moest voor garantie en Hester dit weekend de hort op is met haar vriendinnen, leek me dat een ideale gelegenheid voor een dagje voor mezelf. En dat is het dan ook geworden: vanochtend met de eerste trein waarin mijn weekend-OV geldig was (je blijft student hè) richting Den Haag om eerst dat snowboard maar eens opgestuurd te krijgen, zodat ik daarna de hele middag vrij had.

Room Eleven in Plato Den HaagToevallig was er in de Plato in Den Haag een promotie-optreden van Room Eleven, een Nederlands jazzbandje waar we toevallig tijdens de wintersport waar ik het eerder al over had heel veel naar geluisterd hebben. Ik had ze nog nooit “in het wild” gespot, maar als ik dit optreden in een rommelige platenzaak als een voorproefje, moeten ze op een groter podium helemaal tot hun recht komen. Alles bijelkaar duurde het maar een tiental minuten, met een publiek van evenzoveel mensen, maar daarmee had het wel iets intiems en dat past goed bij ze.

Scheveningen, even voor achtenNa de innerlijke mens getrakteerd te hebben op een salade van de Kentucky Fried Chicken (je moet het toch eens geprobeerd hebben), sprong ik ter afsluiting van mijn dag nog even in de tram richting Scheveningen. Het was tenslotte vandaag 4 mei, dodenherdenking, en waar beter twee minuten stilte te nemen dan op het strand, uitkijkend op de woeste zee. Achter mij een drukke boulevard, waar het rumoer van etende mensen voor twee minuten stil viel; voor mij het woeste geluid van de branding en boven mij het gekrijs van Meeuwen. Die doen niet aan dodenherdenking.

Michel goes multilingual

[dutch]Ik ga het vast niet voor elke post volhouden, maar vanaf vandaag kan het in ieder geval: Michel gaat in twee talen bloggen. Eigenlijk deed ik dat al, de technische artikelen waren meestal in het Engels, maar vanaf nu komen alle posts waarvan ik denk dat ze ook wel eens door het niet-nederlandssprekende deel van de wereldbevolking interessant gevonden zouden kunnen worden in zowel het Nederlands als in het Engels.

Om dat zogenaamde “multilingual blogging” mogelijk te maken heb ik overigens een aardige zoektocht af mogen leggen. Ik probeerde onder andere Gengo, Babel en ContentLocale, maar kwam uiteindelijk uit op JLanguage 2. Eens zien of ik dat volhoud :P[/dutch]

[english]I’m probably not going to be able to keep this up for every post, but from today on it will at least be possible: Michel will blog in two languages. Off course in some way I already did so. Most of my technical articles were in English, but from now on I will make all articles that I think might be interesting to non-dutch readers available in both Dutch and English.

Accomplishing this so-called “multilingual blogging” was quite a task. Among others, I tried Gengo, Babel and ContentLocale, but finally ended up using JLanguage 2. Let’s see if I’ll be able to keep up ;)[/english]