Το CAPTCHA, το σύστημα που τοποθετείται σε δικτυακές φόρμες και καλεί τον χρήστη να αναγνωρίσει δυσανάγνωστες λέξεις για να αποδείξει ότι δεν είναι spambot, πιθανότατα το γνωρίζετε όλοι. Αυτό που ίσως δεν γνωρίζατε όμως είναι πως χρησιμοποιώντας μια από τις δημοφιλέστερες εφαρμογές του είδους, το reCAPTHA, είναι πολύ πιθανό να συμμετέχετε στην ψηφιοποίηση χιλιάδων παλιών εγγράφων.

image

Πιο συγκεκριμένα, το 2009 κάποιες εταιρείες, μεταξύ των οποίων και η Google, αποφάσισαν να ψηφιοποιήσουν παλιές εφημερίδες και περιοδικά χρησιμοποιώντας ειδικό λογισμικό που διαβάζει τις εικόνες των σκαναρισμένων σελίδων για να τις μετατρέψει σε κείμενο. Παρόλα αυτά, εξαιτίας της κακής ποιότητας κάποιων σελίδων ή της ασυνήθιστης γραμματοσειράς που χρησιμοποιούνταν, υπήρχαν κείμενα που ο υπολογιστής αδυνατούσε να διαβάσει.

Για την αντιμετώπιση του προβλήματος η Google εξαγόρασε το reCAPTCHA, που αρχικά είχε αναπτυχθεί στο Πανεπιστήμιο Carnegie Mellon και το τροφοδότησε με τα κείμενα εκείνα που ήταν υπερβολικά δυσανάγνωστα για να διαβαστούν από τους ηλεκτρονικούς υπολογιστές της.

Η ιδέα ήταν έξυπνη, απλή και συμφέρουσα για όλες τις πλευρές: τα spambots δεν μπορούσαν να διαβάσουν τις λέξεις, αφού επιλέγονταν μόνο αυτές που το λογισμικό ψηφιοποίησης αδυνατούσε να διαβάσει. Το φαινόμενο του spamming περιοριζόταν και οι χρήστες χωρίς να το γνωρίζουν συνέβαλλαν στην ψηφιοποίηση χιλιάδων κειμένων, αποκρυπτογραφώντας τα πιο δύσκολα κομμάτια τους.

Κι αν αναρωτιέστε πώς γίνεται το σύστημα να καταλαβαίνει τις σωστές απαντήσεις από τη στιγμή που χρησιμοποιούνται λέξεις που δεν έχει καταφέρει να αποκρυπτογραφήσει, η απάντηση έχει ως εξής: σε κάθε reCAPTCHA χρησιμοποιούνται 2 λέξεις. Η πρώτη λέξη είναι άγνωστη για το σύστημα αλλά η δεύτερη γνωστή. Εάν εσείς συμπληρώσετε σωστά την γνωστή, το σύστημα θεωρεί πως έχετε περάσει τον έλεγχο και λαμβανει ως σωστή την μετάφρασή σας. Ασφαλώς, στη συνέχεια η ίδια άγνωστη λέξη εμφανίζεται και σε άλλους χρήστες για να διασταυρωθεί η ορθότητα της απόδοσης.

Η επιτυχία του reCAPTCHA είναι τέτοια που μέχρι το 2010 είχαν ήδη ψηφιοποιηθεί τα τεύχη 20 ετών από τους Times της Νέας Υόρκης, ενώ υπολογίζεται πως το ποσοστό ακρίβειάς του ξεπερνά το 99,5%. Για του λόγου το αληθές, στις εικόνες που ακολουθούν μπορείτε να δείτε ένα τέτοιο κείμενο (πρώτη εικόνα) και να συγκρίνετε την ψηφιοποίηση που έχει γίνει σε αυτό μέσω του λογισμικού OCR (δεύτερη εικόνα) σε σχέση με αυτή που πραγματοποιήθηκε με το reCAPTCHA (τρίτη εικόνα).

image image image

Πηγές: Wikipedia, reCAPTCHA, via cracked.com

Παλιό άρθρο Το παραπάνω άρθρο είναι αρκετά παλιό, αφού δημοσιεύτηκε στις 25 Σεπτεμβρίου 2011. Εάν κάποια από τις πληροφορίες που αναφέρονται σε αυτό δεν ισχύει πια, ενημερώστε με μέσω της φόρμας επικοινωνίας για να το τροποποιήσω.
Γιώργος Σαρηγιαννίδης

Συντάκτης άρθρου: Γιώργος Σαρηγιαννίδης

Ο Γιώργος Σαρηγιαννίδης είναι απόφοιτος του τμήματος Επικοινωνίας, Μέσων και Πολιτισμού του Παντείου και κάτοχος μεταπτυχιακού διπλώματος από το ίδιο τμήμα. Αυτή τη στιγμή εργάζεται ως freelancer σύμβουλος σε έργα διαδικτύου και intranets, με κύρια αντικείμενα την Αρχιτεκτονική της Πληροφορίας, την κατασκευή ιστοσελίδων και την διαχείριση περιεχομένου. Έχει ειδικευτεί στη μελέτη και τον αρχιτεκτονικό σχεδιασμό portals, intranets και δικτυακών εφαρμογών, ενώ στο παρελθόν έχει ασχοληθεί και με τη δημοσιογραφία.
Website: http://www.gsarigiannidis.gr Twitter Facebook LinkedIn Google Plus Klout
ΜΟΙΡΑΣΤΕΙΤΕ ΤΟ

8 thoughts on “Συμπληρώνοντας τις λέξεις του reCAPTCHA βοηθάτε στην ψηφιοποίηση παλιών εγγράφων

  1. Pingback: Το Facebook σας επιτρέπει να μεταφράσετε Σελίδες και να δείτε ποιοί μιλούν γι’ αυτές

  2. Pingback: Whale.fm: Βοηθήστε να αποκωδικοποιηθούν οι ήχοι της φάλαινας

  3. Pingback: Η Google χρησιμοποιεί το reCAPTCHA για να αποκωδικοποιήσει διευθύνσεις για το Street View

Comments are closed.