Εσείς ξέρετε πώς δουλεύετε για τη Google χωρίς να το γνωρίζετε;
Οι… υπηρεσίες που προσφέρουμε είναι για καλό σκοπό!
Σε όλους μας έχει συμβεί πολλές φορές τα τελευταία χρόνια: προσπαθώντας να συνδεθούμε στο e-mail μας ή σε μια ιστοσελίδα, ή αποστέλλοντας μια φόρμα με προσωπικά μας στοιχεία, εμφανίζεται πολλές φορές ένα ενοχλητικό μήνυμα που μας καλεί να «αποδείξουμε πως δεν είμαστε ρομπότ». Η εν λόγω τεχνολογία λέγεται CAPTCHA. Αρχικά εμφανιζόταν μια λέξη με παράξενη διάταξη γραμμάτων, τεχνητά σβησίματα και αλλοιώσεις, χρώματα και σχέδια. Τελευταία εμφανίζεται η εικόνα μιας δυσανάγνωστης λέξης με μισοσβησμένα γράμματα, διακριτή διαγράμμιση ή γράμματα που «χορεύουν» και είναι απαραίτητο να την καθαρογράψουμε σε ειδικό χώρο που παρατίθεται, προκειμένου να συνεχίσουμε την υποβολή του αιτήματός μας.
Ο λόγος που καλούμαστε να αποδείξουμε την ανθρώπινη υπόστασή μας έχει όνομα: spam. Πολλά κακόβουλα προγράμματα προσπαθούν να αποκτήσουν πρόσβαση στο mail ή σε άλλες υπηρεσίες που χρησιμοποιούμε με επανειλημμένες προσπάθειες, συνδυάζοντας γράμματα και σχηματίζοντας κωδικούς πρόσβασης, μέχρι να βρουν τον σωστό. Άλλα πάλι χρησιμοποιούν τα έγκυρα e-mail που δηλώνονται σε φόρμες στοιχείων προκειμένου να στέλνουν σωρηδόν διαφημιστικά μηνύματα (spam). Σε άλλες πάλι περιπτώσεις, υπάρχουν προγράμματα που αγοράζουν μαζικά εισιτήρια πχ εκδηλώσεων, προκειμένου στη συνέχεια να τα μεταπωλήσουν αποκομίζοντας μεγάλο οικονομικό όφελος. Για να αποφευχθούν όλα αυτά λοιπόν, καλούμαστε κάθε φορά να συμπληρώσουμε την εν λόγω φόρμα-όχι πάντα με επιτυχία. Πώς όμως συνδέεται αυτό με τη διατήρηση των γραπτών κειμένων; Η απάντηση βρίσκεται στη λέξη «ψηφιοποίηση».
Το 2009, η Google ξεκίνησε τη μαζική ψηφιοποίηση αρχαίων, σπάνιων και δυσεύρετων βιβλίων με σκοπό να τα διαθέτει δωρεάν στο ευρύ κοινό-το επονομαζόμενο Google Books project. Τα κείμενα σαρώνονται σελίδα-σελίδα και το αποτέλεσμα της σάρωσης (μια συχνότατα δυσανάγνωστη εικόνα) αναγιγνώσκεται από ειδικά προγράμματα υπολογιστών που κάνουν αυτόματη αναγνώριση χαρακτήρων, προκειμένου οι εικόνες να μετατραπούν σε κανονικά κείμενα. Η εν λόγω τεχνολογία αναγνώρισης δεν έχει τελειοποιηθεί και συνεπώς μπορεί να προκύψουν λάθη.
Εδώ υπεισέρχεται το CAPTCHA: επιλέγονται δυσανάγνωστες λέξεις από σαρωμένα κείμενα και ουσιαστικά οι χρήστες καλούνται να τις καθαρογράψουν. Μπορεί ο ρυθμός της μιας λέξης ανά φόρμα που συμπληρώνεται να φαίνεται μικρός, αλλά ο αριθμός των φορμών που συμπληρώνεται στο διαδίκτυο είναι αστρονομικός…κατ’ αυτόν τον τρόπο, οι χρήστες καλούνται εν αγνοία τους να δουλέψουν εθελοντικά για το project. Ενδεικτικά και μέσα σε λίγους μόνο μήνες, οι χρήστες του Internet βοήθησαν στην ψηφιοποίηση φύλλων μιας περιόδου 20 ετών των New York Times. Μέσα στον πρώτο χρόνο, πάνω από 440 εκατομμύρια λέξεις είχαν «αποκρυπτογραφηθεί», αριθμός που ισοδυναμεί με 17.600 βιβλία.
Αυτή η ευφυής αξιοποίηση μιας τόσο μικρής αλλά και τόσο διαδεδομένης καθημερινής διαδικασίας από ένα τόσο μεγάλο αριθμό χρηστών, αντικατέστησε το παλαιό CAPTCHA των τεχνητά αλλοιωμένων λέξεων με δυσανάγνωστες λέξεις πραγματικής προέλευσης. Οι αλλοιώσεις των παλαιών κειμένων λόγω παλαιότητας και φθοράς ή κακής αρχικής εκτύπωσης, σημαίνει πως το σύστημα αυτόματης αναγνώρισης χαρακτήρων παρουσιάζει ένα ποσοστό σφάλματος της τάξεως του 20%-μια τιμή απαράδεκτη σε κάθε περίπτωση. Το νέο CAPTCHA έρχεται να διορθώσει την απόκλιση αυτή. Επομένως, την επόμενη φορά που θα συμπληρώσετε μια φόρμα στο διαδίκτυο και κληθείτε να «αποδείξετε πως δεν είστε ρομπότ», θα ξέρετε πως συμβάλλετε στη διάσωση της ανθρώπινης κειμενικής κληρονομιάς και στη διάδοσή της.