Jak přechytračit Captcha Resolver
Captcha ("completely automated public Turing test to tell computers and humans apart", tedy "plně automatický veřejný Turingův test k odlišení počítačů a lidí") většinou nutí uživatele opsat text z grafického obrázku. Začínal jsem s velmi jednoduchým barevným textem na pozadí, které zvořily vodoznaky. Po pár dnech jsem se stal objetí jednoho z Captcha Resolverů, který mým testem bez větších problémů prošel.
Začal jsem tedy upravovat výsledný text s cílem ztížit robotům jeho rozpoznání. Přidal jsem bílé linky, které přerušují písmenka a barevné obedélníky, které mají robota zmást.
Co na to roboti? Nemají problém.
Dále jsem zkoučel rozmazání. Co roboti? Opět v pohodě rozpoznají. Zkoušel jsem další a další věci, ale výsledkem toho byla jen obtížnější čitelnost pro člověka, ale zároveň stále příliš dobrá čitelnost pro roboty.
Neplatilo na ně:
- různá barva písmen
- vodoznaky na pozadí
- obdélníky pro zmatení
- rozmazání (ve skutečnosti je rozmazání jedním z kroků při rozpoznávání textu, takže jsem tím robotům akorát ulehčil práci)
- dělení zanků bílými linkami
- jiné barevné linky
Naopak lepší výsledky (rozuměj větší zmatení protivníka - OCR robota) dosáhneme použitím:
- jednobarevného textu
- písmenka blízko u sebe (až se překrývají)
- netradiční, nejlépe bitmapový font
- část obrázku zinvertovat
Zajímavější a úspěšnější ukázky a dokonce možnost integrovat tamější systém kontroly do vašich stránek nabízí projekt http://recaptcha.net. Vzhledem k přístupnosti není od věci i možnost nechat si text přehrát.
OCR roboti jsou den ode dne chytřejší a vygenerovat dobře čitelnou Captchu pro lidi, ale nerozpoznatelnou pro počítač je den ode dne těžší a těžsí. Zajímavou alternativou jsou pak logické otázky, od základních "kolik je pět a tři?" až po zajímavější "Kolik nohou má stonožka?".
Služby OpenID a MojeID - jak to vlastně zjednodušeně funguje (27.10.2010)





Posted comments
odpoved
Mně se osvědčilo zatím staré dobré x+y nebo x krát dvě případně odpověď právě na tu jednoduchou otázku. Otrocké přepisování špatně čitelných textů (a zároveň současné naštvání mnoha uživatelů, kteří po čtvrtém marném pokusu odeslat příspěvek raději zavírají stránku) skončí v momentě kdy vedle OCR začnou používat roboti jednak pokročilejší metody odhadu slov pomocí AI, (v akademickém prostředí se spoustu takového sw vyvíjí - je na to čas a prostředky). Další věcí je zvukový odposlech jednotlivých hlásek, někdy je problém na zahraničních webech odposlechnout co hlas v zašuměném prostředí říká, případně v nešumovém není problém toto opět automaticky odchytit, dekódovat z hlásek do slova (na to jsou již také poměrně robustní programy). Chtělo by to spíše vize, kam by se ten boj proti robotům mohl posunout...