Το CAPTCHA, το σύστημα που τοποθετείται σε δικτυακές φόρμες και καλεί τον χρήστη να αναγνωρίσει δυσανάγνωστες λέξεις για να αποδείξει ότι δεν είναι spambot, πιθανότατα το γνωρίζετε όλοι. Αυτό που ίσως δεν γνωρίζατε όμως είναι πως χρησιμοποιώντας μια από τις δημοφιλέστερες εφαρμογές του είδους, το reCAPTHA, είναι πολύ πιθανό να συμμετέχετε στην ψηφιοποίηση χιλιάδων παλιών εγγράφων.
Πιο συγκεκριμένα, το 2009 κάποιες εταιρείες, μεταξύ των οποίων και η Google, αποφάσισαν να ψηφιοποιήσουν παλιές εφημερίδες και περιοδικά χρησιμοποιώντας ειδικό λογισμικό που διαβάζει τις εικόνες των σκαναρισμένων σελίδων για να τις μετατρέψει σε κείμενο. Παρόλα αυτά, εξαιτίας της κακής ποιότητας κάποιων σελίδων ή της ασυνήθιστης γραμματοσειράς που χρησιμοποιούνταν, υπήρχαν κείμενα που ο υπολογιστής αδυνατούσε να διαβάσει.
Για την αντιμετώπιση του προβλήματος η Google εξαγόρασε το reCAPTCHA, που αρχικά είχε αναπτυχθεί στο Πανεπιστήμιο Carnegie Mellon και το τροφοδότησε με τα κείμενα εκείνα που ήταν υπερβολικά δυσανάγνωστα για να διαβαστούν από τους ηλεκτρονικούς υπολογιστές της.
Η ιδέα ήταν έξυπνη, απλή και συμφέρουσα για όλες τις πλευρές: τα spambots δεν μπορούσαν να διαβάσουν τις λέξεις, αφού επιλέγονταν μόνο αυτές που το λογισμικό ψηφιοποίησης αδυνατούσε να διαβάσει. Το φαινόμενο του spamming περιοριζόταν και οι χρήστες χωρίς να το γνωρίζουν συνέβαλλαν στην ψηφιοποίηση χιλιάδων κειμένων, αποκρυπτογραφώντας τα πιο δύσκολα κομμάτια τους.
Κι αν αναρωτιέστε πώς γίνεται το σύστημα να καταλαβαίνει τις σωστές απαντήσεις από τη στιγμή που χρησιμοποιούνται λέξεις που δεν έχει καταφέρει να αποκρυπτογραφήσει, η απάντηση έχει ως εξής: σε κάθε reCAPTCHA χρησιμοποιούνται 2 λέξεις. Η πρώτη λέξη είναι άγνωστη για το σύστημα αλλά η δεύτερη γνωστή. Εάν εσείς συμπληρώσετε σωστά την γνωστή, το σύστημα θεωρεί πως έχετε περάσει τον έλεγχο και λαμβανει ως σωστή την μετάφρασή σας. Ασφαλώς, στη συνέχεια η ίδια άγνωστη λέξη εμφανίζεται και σε άλλους χρήστες για να διασταυρωθεί η ορθότητα της απόδοσης.
Η επιτυχία του reCAPTCHA είναι τέτοια που μέχρι το 2010 είχαν ήδη ψηφιοποιηθεί τα τεύχη 20 ετών από τους Times της Νέας Υόρκης, ενώ υπολογίζεται πως το ποσοστό ακρίβειάς του ξεπερνά το 99,5%. Για του λόγου το αληθές, στις εικόνες που ακολουθούν μπορείτε να δείτε ένα τέτοιο κείμενο (πρώτη εικόνα) και να συγκρίνετε την ψηφιοποίηση που έχει γίνει σε αυτό μέσω του λογισμικού OCR (δεύτερη εικόνα) σε σχέση με αυτή που πραγματοποιήθηκε με το reCAPTCHA (τρίτη εικόνα).
Πηγές: Wikipedia, reCAPTCHA, via cracked.com
RT @Freeweird: Συμπληρώνοντας τις λέξεις του reCAPTCHA βοηθάτε στην ψηφιοποίηση παλιών εγγράφων http://t.co/VDt8nsQM
RT @Freeweird: Γνωρίζατε ότι συμπληρώνοντας τις φόρμες του reCAPTCHA βοηθάτε στην ψηφιοποίηση παλιών εγγράφων; http://t.co/nEG4npXV
RT @Freeweird: Γνωρίζατε ότι συμπληρώνοντας τις φόρμες του reCAPTCHA βοηθάτε στην ψηφιοποίηση παλιών εγγράφων; http://t.co/5R0K367E
Συμπληρώνοντας τις λέξεις του reCAPTCHA βοηθάτε στην ψηφιοποίηση παλιών εγγράφων [via freeweird.com] http://t.co/4mWvCgAC
Συμπληρώνοντας τις λέξεις του reCAPTCHA βοηθάτε στην ψηφιοποίηση παλιών εγγράφων, http://t.co/hnANYZh7
Pingback: Το Facebook σας επιτρέπει να μεταφράσετε Σελίδες και να δείτε ποιοί μιλούν γι’ αυτές
Pingback: Whale.fm: Βοηθήστε να αποκωδικοποιηθούν οι ήχοι της φάλαινας
Pingback: Η Google χρησιμοποιεί το reCAPTCHA για να αποκωδικοποιήσει διευθύνσεις για το Street View