OpenAI HealthBench: Το νέο εργαλείο για αξιολόγηση των απαντήσεων της AI σε θέματα υγείας

OpenAI HealthBench: Το νέο εργαλείο για αξιολόγηση των απαντήσεων της AI σε θέματα υγείας

Η OpenAI ανακοίνωσε την κυκλοφορία του HealthBench, ενός νέου εργαλείου ανοιχτού κώδικα που φιλοδοξεί να αποτελέσει το νέο πρότυπο αξιολόγησης των απαντήσεων που παρέχουν τα συστήματα τεχνητής νοημοσύνης (AI) σε ερωτήσεις που σχετίζονται με την υγεία. Στόχος του εγχειρήματος είναι να προσφέρει στους επαγγελματίες του τομέα της υγείας και στους ερευνητές ένα αξιόπιστο και συγκρίσιμο μέσο για την εκτίμηση της ακρίβειας, της πληρότητας και της καταλληλότητας των απαντήσεων από διαφορετικά γλωσσικά μοντέλα.

Το HealthBench αναπτύχθηκε σε συνεργασία με 262 ιατρούς από 60 χώρες και βασίζεται σε μια βάση δεδομένων 5.000 ρεαλιστικών ιατρικών διαλόγων. Η λειτουργία του βασίζεται στην αξιολόγηση των απαντήσεων που δίνει κάθε AI σε ιατρικές ερωτήσεις, με βάση ένα ειδικά διαμορφωμένο σύνολο κριτηρίων που έχουν καθοριστεί από ιατρούς. Κάθε κριτήριο έχει συγκεκριμένη βαρύτητα, με στόχο να αντανακλά την ιατρική κρίση και τις απαιτήσεις ακρίβειας και αξιοπιστίας. Την αξιολόγηση των απαντήσεων αναλαμβάνει το προηγμένο μοντέλο GPT-4.1, αξιολογώντας την πληρότητα και την ακρίβεια κάθε απάντησης.

Ενδεικτικά, σε ένα υποθετικό σενάριο όπου ένα σύστημα AI ερωτάται τι θα πρέπει να κάνει κάποιος όταν βλέπει τον 70χρονο γείτονά του πεσμένο στο έδαφος, συνειδητό αλλά ανίκανο να απαντήσει, το HealthBench εξετάζει την απάντηση του μοντέλου (π.χ. κλήση βοήθειας, έλεγχος αναπνοής), εντοπίζει τυχόν ελλείψεις, επισημαίνει πιθανά σημεία βελτίωσης και αποδίδει τελικά μια ποσοστιαία βαθμολογία.

Σύμφωνα με τις πρώτες αξιολογήσεις που πραγματοποιήθηκαν με το HealthBench, το μοντέλο o3 της OpenAI κατέγραψε την υψηλότερη επίδοση με 60%, ακολουθούμενο από το Grok με 54% και το Gemini 2.5 Pro με 52%. Το ίδιο το HealthBench έχει σχεδιαστεί με στόχο τη μέγιστη προσαρμοστικότητα: υποστηρίζει διαλόγους σε 49 γλώσσες, μεταξύ αυτών και λιγότερο διαδεδομένες, ενώ καλύπτει 26 ιατρικές ειδικότητες, μεταξύ των οποίων η νευροχειρουργική και η οφθαλμολογία.

Με αυτή την πρωτοβουλία, η OpenAI επιδιώκει να συμβάλει ουσιαστικά στη συνεχή βελτίωση της αξιοπιστίας των ιατρικών πληροφοριών που παρέχονται από την τεχνητή νοημοσύνη, προσφέροντας στην ερευνητική και ιατρική κοινότητα ένα διαφανές και αυστηρό σύστημα αξιολόγησης. Το HealthBench έρχεται να καλύψει ένα κρίσιμο κενό στην ανάγκη για ποιοτικό έλεγχο της AI στον ευαίσθητο χώρο της υγείας, με έμφαση στην ασφάλεια των ασθενών και τη θεμελίωση εμπιστοσύνης προς τις νέες τεχνολογίες.

Leave a Reply

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Κατασκευή Ιστοσελίδων WEBTEC