«Χαζεύει» και η AI; Σχεδόν όλα τα AI chatbots παρουσιάζουν σημάδια γνωστικής παρακμής

Οι χρήστες βασίζονται όλο και περισσότερο στην Τεχνητή Νοημοσύνη για ιατρικές διαγνώσεις, λόγω του πόσο γρήγορα και αποτελεσματικά τα εργαλεία αυτά μπορούν να εντοπίσουν ανωμαλίες και προειδοποιητικά σημάδια σε ιατρικά ιστορικά, ακτινογραφίες και άλλα σύνολα δεδομένων πριν γίνουν εμφανή με γυμνό μάτι. Ωστόσο, μια νέα μελέτη που δημοσιεύθηκε στις 20 Δεκεμβρίου 2024 στο BMJ εγείρει ανησυχίες ότι οι τεχνολογίες Τεχνητής Νοημοσύνης, όπως τα μεγάλα γλωσσικά μοντέλα (LLM) και τα chatbots, παρουσιάζουν σημάδια επιδείνωσης των γνωστικών ικανοτήτων με την ηλικία, όπως οι άνθρωποι!
Τα ευρήματα αυτά αμφισβητούν την υπόθεση ότι η τεχνητή νοημοσύνη θα αντικαταστήσει σύντομα τους ανθρώπους γιατρούς, καθώς η γνωστική εξασθένιση που είναι εμφανής στα κορυφαία chatbots μπορεί να επηρεάσει την αξιοπιστία τους στην ιατρική διάγνωση και να υπονομεύσει την εμπιστοσύνη των ασθενών.
Οι ερευνητές δοκίμασαν τα δημόσια διαθέσιμα chatbots που βασίζονται σε LLMs, συμπεριλαμβανομένων των ChatGPT της OpenAI, Sonnet της Anthropic και Gemini της Google, χρησιμοποιώντας το τεστ Montreal Cognitive Assessment (MoCA), μια σειρά εργασιών που χρησιμοποιούν οι νευρολόγοι για να ελέγξουν τις ικανότητες στην προσοχή, τη μνήμη, τη γλώσσα, τις χωρικές δεξιότητες και την εκτελεστική νοητική λειτουργία.
Το MoCA χρησιμοποιείται συνηθέστερα για την αξιολόγηση ή τον έλεγχο της έναρξης της γνωστικής εξασθένησης σε καταστάσεις όπως η νόσος του Alzheimer ή η άνοια. Τα υποκείμενα αναλαμβάνουν καθήκοντα όπως το να σχεδιάζουν μια συγκεκριμένη ώρα σε έναν πίνακα ρολογιού, να ξεκινούν από το 100 και να αφαιρούν επανειλημμένα το επτά, να θυμούνται όσο το δυνατόν περισσότερες λέξεις από έναν προφορικό κατάλογο κ.ο.κ. Στους ανθρώπους, το 26 στα 30 θεωρείται επιτυχής βαθμολογία, δηλαδή το υποκείμενο δεν έχει καμία γνωστική εξασθένιση.
Παρόλο που ορισμένες πτυχές της εξέτασης, όπως η κατονομασία, η προσοχή, η γλώσσα και η αφαίρεση, ήταν φαινομενικά εύκολες για τα περισσότερα από τα LLM που χρησιμοποιήθηκαν, όλα είχαν κακές επιδόσεις στις οπτικές/χωρικές δεξιότητες και στα εκτελεστικά καθήκοντα, ενώ αρκετά από αυτά ήταν χειρότερα από άλλα σε τομείς όπως η επιβραδυνόμενη ανάκληση.
Το κρίσιμο είναι ότι, ενώ η πιο πρόσφατη έκδοση του ChatGPT (έκδοση 4) σημείωσε την υψηλότερη βαθμολογία (26 στα 30), το παλαιότερο Gemini 1.0 σημείωσε μόλις 16, οδηγώντας στο συμπέρασμα ότι τα παλαιότερα LLM παρουσιάζουν σημάδια γνωστικής παρακμής.
Οι συγγραφείς της μελέτης σημειώνουν ότι τα ευρήματά τους είναι μόνο παρατηρησιακά. Oι κρίσιμες διαφορές μεταξύ των τρόπων με τους οποίους λειτουργούν η τεχνητή νοημοσύνη και το ανθρώπινο μυαλό σημαίνει ότι το πείραμα δεν μπορεί να αποτελέσει άμεση σύγκριση. Αλλά προειδοποιούν ότι μπορεί να υποδείξει αυτό που αποκαλούν «σημαντικό τομέα αδυναμίας» που θα μπορούσε να φρενάρει την ανάπτυξη της AI στην κλινική ιατρική. Συγκεκριμένα, τάχθηκαν κατά της χρήσης της AI σε εργασίες που απαιτούν οπτική αφαίρεση και εκτελεστική λειτουργία.