DeepSeek-R1: Το κινέζικο AI μοντέλο που ανταγωνίζεται το o1 του OpenAI
Η Κίνα δεν έχει εύκολο έργο αν θέλει να προχωρήσει στον τομέα της Τεχνητής Νοημοσύνης. Την ώρα που οι αμερικανικοί τεχνολογικοί γίγαντες δεν σταματούν να προσθέτουν όλο και περισσότερες υπερσύγχρονες GPU για την εκπαίδευση των μοντέλων τους, ο ασιατικός γίγαντας αντιμετωπίζει ένα βέτο που καθιστά πολύ δύσκολη την πρόσβαση στα ίδια τσιπ. Παρά αυτό και άλλα εμπόδια, στην Κίνα καταφέρνουν να αποφεύγουν τους περιορισμούς και η πρόοδος στα μοντέλα AI είναι εκπληκτική.
Όπως επισημαίνουν στο TechCrunch, ένα κινεζικό ερευνητικό εργαστήριο με την ονομασία DeepSeek λάνσαρε το DeepSeek-R1. Σύμφωνα με τους διαχειριστές του, πρόκειται για το πρώτο μοντέλο τεχνητής νοημοσύνης που μπορεί να ανταγωνιστεί το o1, από τον OpenAI, όσον αφορά τη συλλογιστική.
Αυτή η συλλογιστική, όπως και στην περίπτωση του o1, βασίζεται στο γεγονός ότι το μοντέλο δεν ανταποκρίνεται αμέσως, αλλά εξετάζει διάφορες πιθανές απαντήσεις για να επιλέξει την καταλληλότερη. Αυτό απαιτεί χρόνο και αναγκάζει, όπως συμβαίνει στο o1, τον χρήστη να περιμένει λίγο περισσότερο (ακόμη και δεκάδες δευτερόλεπτα, στην περίπτωση του DeepSeek-R1) για να λάβει την απάντηση.
Σύμφωνα με τις δοκιμές επιδόσεων στις οποίες υποβλήθηκε το κινεζικό μοντέλο, η συμπεριφορά του είναι συγκρίσιμη με το o1, το μοντέλο που λάνσαρε ο OpenAI τον Σεπτέμβριο του 2024.
Ακόμα κι έτσι, όσοι είχαν πρόσβαση στο DeepSeek αποκαλύπτουν ότι δυσκολεύονται με τα λογικά προβλήματα ή ακόμα και με τόσο απλά παιχνίδια όπως τρία στη σειρά, κάτι που συνήθως αποτελεί πρόκληση και για το o1, το οποίο έχει τους δικούς του περιορισμούς. Και όχι μόνο αυτό: Το DeepSeek-R1 μπορεί να «ξεγελαστεί» και είναι δυνατόν να χρησιμοποιηθούν τεχνικές jailbreaking για να ληφθούν απαντήσεις που παρακάμπτουν τα θεωρητικά δημιουργημένα όρια ασφαλείας που το εμποδίζουν να παράγει τοξικό περιεχόμενο.
Σε άλλες δοκιμές που πραγματοποιήθηκαν διαπιστώθηκε πώς το μοντέλο ζητάει συγγνώμη και δεν απαντάει αν ο χρήστης προσπαθήσει να του ζητήσει απόψεις για την πολιτική κατάσταση στην Κίνα. Είναι πιθανό ότι η κινεζική κυβέρνηση έχει ασκήσει πιέσεις για να θέσει βέτο σε αυτού του είδους την αλληλεπίδραση και σύμφωνα με τους Financial Times, οι διαχειριστές της διαθέτουν μηχανισμούς λογοκρισίας, ώστε αυτά τα chatbots να ευθυγραμμίζονται με τις αξίες και τις πολιτικές της χώρας.
Η startup χρηματοδοτείται από την High-Flyer Capital Management, ένα κινεζικό επενδυτικό ταμείο που χρησιμοποιεί τεχνητή νοημοσύνη για τη λήψη επενδυτικών αποφάσεων. Η εταιρεία αυτή έχει τα δικά της clusters servers για την εκπαίδευση των μοντέλων AI και το πιο πρόσφατο διαθέτει 10.000 GPUs NVIDIA A100 με κόστος περίπου 138 εκατομμύρια δολάρια. Ο στόχος της High-Flyer είναι, όπως και των μεγάλων πρωταγωνιστών της Τεχνητής Νοημοσύνης στις ΗΠΑ, να αναπτύξει μια AGI μέσω του προγράμματος DeepSeek. Μια ακόμη ιδιαιτερότητα: οι υπεύθυνοι του DeepSeek ανακοίνωσαν την πρόθεσή τους να δημοσιεύσουν αυτό το μοντέλο ως ανοικτού κώδικα και να προσφέρουν ένα API.
Η ανάπτυξη του DeepSeek-R1 δείχνει πώς η Κίνα προχωρά με αξιοσημείωτο ρυθμό στον τομέα αυτό. Η startup ξεκίνησε στην πραγματικότητα ένα μοντέλο με την ονομασία DeepSeek-V2 πριν από μερικούς μήνες, και αυτό ανάγκασε τους τοπικούς ανταγωνιστές όπως η ByteDance, η Baidu ή η Alibaba να μειώσουν την τιμή χρήσης των μοντέλων τους, ενώ άλλα κατέληξαν να είναι δωρεάν.