Software

Claude Opus 4.5: Επίσημα το «καλύτερο AI εργαλείο» για προγραμματισμό

26/11/2025

Η Anthropic κλιμακώνει τον ανταγωνισμό στην τεχνητή νοημοσύνη με την κυκλοφορία του Claude Opus 4.5, ενός νέου μοντέλου που στοχεύει ξεκάθαρα στον χώρο του κώδικα, των agents και της αλληλεπίδρασης με υπολογιστικά συστήματα.

Η εταιρεία ισχυρίζεται ότι το νέο μοντέλο είναι το καλύτερο εργαλείο κώδικα στον κόσμο, με βάση τα αποτελέσματα στον δείκτη αξιολόγησης SWE-bench Verified — ένα benchmark που θεωρείται από τα πιο απαιτητικά και κοντινά σε πραγματικές συνθήκες software engineering.

Σύμφωνα με τα στοιχεία της Anthropic, το Claude Opus 4.5 κατέγραψε επίδοση 80,9% στο SWE-bench Verified, προσπερνώντας ανταγωνιστές όπως το Gemini 3.0 και το GPT-5.1-Codex-Max. Για να δώσει περισσότερο βάρος στα αποτελέσματα, η εταιρεία αναφέρει ότι χρησιμοποιεί και ένα δικό της πολύ δύσκολο take-home τεστ, το οποίο δίνεται στους υποψήφιους μηχανικούς κατά τη διαδικασία πρόσληψης. Το Opus 4.5, μέσα στο χρονικό όριο των δύο ωρών, φέρεται να πέτυχε την υψηλότερη βαθμολογία που έχει σημειώσει ποτέ άνθρωπος υποψήφιος σε αυτό το τεστ.

Παρότι η έμφαση δίνεται στον προγραμματισμό, η Anthropic υποστηρίζει ότι το μοντέλο υπερέχει και σε καθήκοντα που απαιτούν σύνθετη ανάλυση, όπως βαθιά έρευνα, επεξεργασία παρουσιάσεων και διαχείριση spreadsheets. Αυτό σημαίνει ότι η εταιρεία βλέπει το Claude όχι μόνο ως εργαλείο για developers, αλλά και ως πολυεργαλείο παραγωγικότητας, σε έναν χώρο όπου η AI αρχίζει να ενσωματώνεται σε ολόκληρες επαγγελματικές ροές.

Το Claude Opus 4.5 είναι διαθέσιμο ήδη στις εφαρμογές Claude, μέσω API, και σε όλες τις μεγάλες cloud πλατφόρμες — Azure, GCP και AWS. Η Anthropic μάλιστα ανακοίνωσε μείωση τιμών στο API: η χρέωση για το νέο μοντέλο διαμορφώνεται στα 5 δολάρια για εισερχόμενα tokens και 25 δολάρια για εξερχόμενα tokens ανά εκατομμύριο. Με αυτόν τον τιμοκατάλογο, η εταιρεία ελπίζει να κάνει τα μοντέλα κατηγορίας Opus πιο προσιτά σε μια ευρύτερη βάση χρηστών και επιχειρήσεων.

Πέρα από την ακατέργαστη ισχύ, το Opus 4.5 υπόσχεται και σημαντικά καλύτερη αποδοτικότητα. Η Anthropic τονίζει ότι το νέο μοντέλο χρησιμοποιεί πολύ λιγότερα tokens για να φτάσει στο ίδιο —ή και ανώτερο— επίπεδο απόδοσης σε σχέση με προηγούμενες εκδόσεις, συμπεριλαμβανομένου του Opus 4.1. Η διαφορά δεν αφορά μόνο οικονομία πόρων αλλά και χρόνο: λιγότερη επανάληψη, λιγότερη περιττή εξερεύνηση εναλλακτικών λύσεων και πιο άμεση συλλογιστική. Ενδεικτικά, στην κατηγορία Medium reasoning effort, το Opus 4.5 μπορεί να ξεπεράσει την επίδοση του Sonnet 4.5 στο SWE-bench Verified χρησιμοποιώντας 76% λιγότερα εξερχόμενα tokens. Στο High reasoning effort, το μοντέλο υπερτερεί κατά 4,3% έναντι του Sonnet 4.5 με 48% μειωμένα tokens.

Σε ευθεία αναφορά στην πρόσφατη φιλοσοφία της OpenAI, η Anthropic εισάγει πλέον παράμετρο reasoning effort στο Claude API. Οι developers μπορούν να καθορίζουν πόσο «βαθιά» θέλουν να σκέφτεται το μοντέλο — με trade-off μεταξύ ταχύτητας και βάθους ανάλυσης, ανάλογα με το εκάστοτε task. Με αυτόν τον τρόπο, οι εφαρμογές μπορούν να επιλέγουν ελαφριά συλλογιστική για ρουτίνες ή πιο εντατική ανάλυση για πολύπλοκες εργασίες λογικής και προγραμματισμού.

Η Anthropic δίνει επίσης ιδιαίτερη έμφαση στο Claude Code, το οποίο —σύμφωνα με την εταιρεία— αποκτά μεγαλύτερη ικανότητα οργάνωσης και εκτέλεσης σύνθετων ενεργειών. Πλέον το σύστημα είναι ικανό να θέτει διευκρινιστικές ερωτήσεις στην αρχή μιας εργασίας, να σχεδιάζει ένα πλήρως επεξεργάσιμο αρχείο plan.md και έπειτα να προχωρά στην υλοποίηση, με ελάχιστη ανάγκη για ανθρώπινη καθοδήγηση. Αυτή η προσέγγιση απέχει αρκετά από τον παραδοσιακό τρόπο, όπου το AI απλώς επιχειρούσε να γράψει κώδικα κατευθείαν, συχνά χωρίς ξεκάθαρη στρατηγική.