Η κινεζική εταιρεία τεχνητής νοημοσύνης Deepseek τραβάει τις προσοχές της Silicon Valley, ταιριάζοντας ή και ξεπερνώντας τους μεγάλους παίκτες του κλάδου, όπως η OpenAI, το GPT-4 και το Claude 3.5, ενώ ταυτόχρονα ξοδεύει πολύ λιγότερα χρήματα. Ποιος κρύβεται πίσω από αυτήν την ομάδα ακαδημαϊκών ερευνητών που ξεπερνούν τις μεγαλύτερες τεχνολογικές εταιρείες;
Η ταχύτητα της Deepseek: Ένα νέο πρότυπο στην AI
Η Deepseek επιταχύνει γρηγορότερα ακόμα και από τους «επιταχυντές» της Silicon Valley. Το τελευταίο μοντέλο της, το Deepseek-V3, έχει αποδώσει καλύτερα από τα κορυφαία εμπορικά συστήματα AI σε δοκιμές benchmark, σύμφωνα με ανεξάρτητες αξιολογήσεις. Μόλις μερικούς μήνες νωρίτερα, το μοντέλο R1-Lite της είχε σχεδόν ταιριάξει με το o1-preview της OpenAI, ενώ η τελική έκδοση R1 τώρα παρουσιάζει παρόμοιες επιδόσεις.
Ενώ η Deepseek βασίζεται σε δυτική ανοικτού κώδικα εργασία, εισάγει καινοτόμες ιδέες. Η ταχύτητα της προόδου της έχει τραβήξει την προσοχή των ηγετών της τεχνολογίας, συμπεριλαμβανομένου του CEO της Meta, Μαρκ Ζάκερμπεργκ, ο οποίος φέρεται να ανησυχεί για την αποτελεσματικότητα και την ταχύτητά τους.
Από τις χρηματοοικονομικές υπηρεσίες στη διάσπαση των συνόρων της AI
Η ιστορία ξεκινά με τον Liang Wenfeng, γεννημένο το 1985 από δασκάλα δημοτικού στο Zhanjiang. Αφού αποφοίτησε από το Πανεπιστήμιο Zhejiang το 2006, εξερεύνησε τη μηχανική μάθηση στις χρηματοοικονομικές υπηρεσίες κατά τη διάρκεια των μεταπτυχιακών του σπουδών.
Σε αντίθεση με τους CEO της τεχνολογίας όπως ο Sam Altman ή ο Elon Musk, ο Wenfeng μένει μακριά από τα φώτα της δημοσιότητας. Το προφίλ του στο IEEE δείχνει ότι παραμένει βαθιά εμπλεκόμενος στην έρευνα, δημοσιεύοντας εργασίες το 2024 για την AI στη βιομηχανία και τα νέα υλικά.
Μέχρι το 2015, ο Wenfeng και δύο συμμαθητές του είχαν ιδρύσει το hedge fund High-Flyer, το οποίο μεγάλωσε για να διαχειρίζεται περίπου 13 δισεκατομμύρια ευρώ μέσα σε έξι χρόνια, γίνοντας ένας από τους «Τέσσερις Βασιλιάδες της Ποσοτικής Επένδυσης» της Κίνας. Αυτή η επιτυχία οδήγησε στη δημιουργία της High-Flyer AI το 2019.
Το 2021, αυτό που φαινόταν σαν ένα ακριβό χόμπι μετατράπηκε σε κάτι πιο σημαντικό. Ο Wenfeng άρχισε να αγοράζει χιλιάδες GPU της Nvidia για αυτό που αποκαλούσε ένα «παρελκόμενο έργο» AI. Ένας επιχειρηματικός συνεργάτης θυμάται ότι συνάντησε έναν «πολύ σπασίκλα τύπο με άθλια μαλλιά» που δυσκολευόταν να εξηγήσει το όραμά του, αλλά απλά ήθελε να δημιουργήσει κάτι σημαντικό.
Αυτό το «χόμπι» αποδείχθηκε προφητικό – η High-Flyer απέκτησε πάνω από 10.000 GPU Nvidia A100 πριν τεθούν οι αμερικανικοί περιορισμοί εξαγωγών και τις χρησιμοποίησε για να ενισχύσει τον υπερυπολογιστή Fire-Flyer, εστιάζοντας στη βαθιά μάθηση και θέτοντας τα θεμέλια για την τελική της επιτυχία.
Δημιουργία μιας κουλτούρας έρευνας
Όταν η Deepseek ξεκίνησε επίσημα τον Μάιο του 2023, έμοιαζε διαφορετική από τις τυπικές startups. Τα γραφεία στο Πεκίνο και το Hangzhou μοιάζουν περισσότερο με «πανεπιστημιούπολη για σοβαρούς ερευνητές» (σύμφωνα με το Financial Times) παρά με μια εταιρεία τεχνολογίας.
Η Deepseek κυκλοφόρησε γρήγορα το πρώτο της προϊόν, το Deepseek Coder, ακολουθούμενο από το ευρύτερο Deepseek LLM, και μέσα σε ένα χρόνο είχε ακολουθήσει με τη βελτιωμένη έκδοση Coder-V2 και το Deepseek-V2.
Από τους 200–300 εργαζόμενους, μεταξύ 100 και 140 εργάζονται στην ανάπτυξη μοντέλων. Αυτό που διαφοροποιεί την Deepseek είναι η εστίασή της στη βασική έρευνα παρά στις εμπορικές εφαρμογές. Η εταιρεία χρηματοδοτείται πλήρως από την High-Flyer και δεσμεύεται να ανοίξει τον κώδικα της εργασίας της – ακόμα και στην προσπάθειά της για την τεχνητή γενική νοημοσύνη (AGI), σύμφωνα με τον ερευνητή της Deepseek, Deli Chen.
Σύμφωνα με τον Wenfeng, προσλαμβάνουν κυρίως απόφοιτων κορυφαίων πανεπιστημίων και φοιτητών διδακτορικών που έχουν δημοσιεύσει σε κορυφαία περιοδικά, αλλά έχουν ελάχιστη βιομηχανική εμπειρία. Ενώ η ομάδα προτεραιτεί την έρευνα έναντι του κέρδους, η Deepseek προσφέρει τους υψηλότερους μισθούς για μηχανικούς AI στην Κίνα, σύμφωνα με το Financial Times.
Εστίαση στην περιέργεια έναντι του εμπορίου
Η προσέγγιση της Deepseek διαφέρει από τις περισσότερες δυτικές εταιρείες AI. Το προφίλ τους στο X αναφέρει απλώς: «Ξετυλίξτε το μυστήριο της AGI με περιέργεια. Απαντήστε στην ουσιώδη ερώτηση με μακροπρόθεσμη προσέγγιση». Δεν θα βρείτε τις συνήθεις εταιρικές υποσχέσεις για ασφάλεια ή ανταγωνισμό.
Ο Wenfeng είναι ειλικρινής σχετικά με την προτεραιότητα της έρευνας: «Αν πρέπει να βρούμε έναν εμπορικό λόγο, πιθανότατα δεν μπορούμε, γιατί δεν είναι κερδοφόρο. Από εμπορική άποψη, η βασική έρευνα έχει πολύ χαμηλό δείκτη απόδοσης επένδυσης, και όταν οι πρώτοι επενδυτές της OpenAI έβαλαν τα χρήματά τους, δεν σκέφτηκαν τις αποδόσεις. Το έκαναν επειδή το ήθελαν».
Ο ίδιος ο Wenfeng εστιάζει σε μια μεγαλύτερη εικόνα: την αλλαγή της τεχνολογικής κουλτούρας της Κίνας. Ελπίζει ότι η Deepseek θα εμπνεύσει περισσότερη «σκληρή καινοτομία» σε ολόκληρη την οικονομία της Κίνας. «Η πραγματική διαφορά δεν είναι ένα ή δύο χρόνια, είναι ανάμεσα στην πρωτοτυπία και την απομίμηση», λέει για την προσέγγιση των ΗΠΑ. Πιστεύει ότι μόλις η κοινωνία ανταμείψει την πραγματική καινοτομία, η νοοτροπία θα ακολουθήσει.
Επαίνoς από ηγέτες της βιομηχανίας AI
Η κοινότητα της AI έχει παρατηρήσει την προσέγγιση της Deepseek. Ο Jack Clark, πρώην επικεφαλής πολιτικής της OpenAI και συνιδρυτής της Anthropic, είπε ότι η Deepseek προσέλαβε μια ομάδα «ακατανόητων μάγων». Ο Andrej Karpathy επαίνεσε την αποτελεσματικότητά τους: «Η Deepseek κάνει να φαίνεται εύκολο σήμερα με μια ανοιχτή έκδοση ενός μοντέλου LLM που εκπαιδεύτηκε με ένα αστείο budget».
Ο Jim Fan, ανώτερος ερευνητής της Nvidia, βλέπει τους περιορισμούς πόρων ως πλεονέκτημα: «Οι περιορισμοί πόρων είναι κάτι υπέροχο. Το ένστικτο επιβίωσης σε μια ανταγωνιστική γη AI είναι μια κύρια κίνηση για ανακαλύψεις».
Ο επικεφαλής επιστήμονας AI της Meta, Yann LeCun, αποκάλεσε το μοντέλο V3 «εξαιρετικό» και επαίνεσε τη δέσμευσή τους για τον ανοικτό κώδικα, λέγοντας ότι έχουν ακολουθήσει το πραγματικό πνεύμα της ανοιχτής έρευνας βελτιώνοντας την υπάρχουσα τεχνολογία και μοιράζοντας τη διαδικασία τους.
Ερωτήσεις για την εποπτεία της κυβέρνησης και τις μεθόδους εκπαίδευσης
Παρά τις εντυπωσιακές επιδόσεις και τους επαίνους της βιομηχανίας, αρκετές ερωτήσεις επισκιάζουν την άνοδο της Deepseek. Όπως όλες οι κινεζικές εταιρείες AI, τα μοντέλα της Deepseek πρέπει να συμμορφώνονται με τη λογοκρισία του κράτους, και η σχέση τους με την κυβέρνηση παραμένει ασαφής.
Υπάρχει επίσης αβεβαιότητα σχετικά με τις μεθόδους εκπαίδευσής τους – τα μοντέλα τους μερικές φορές αναγνωρίζουν τον εαυτό τους ως ChatGPT, πράγμα που υποδηλώνει ότι μπορεί να εκπαιδεύονται σε αποτελέσματα δυτικής AI.
Αλλά ενώ οι περισσότερες δυτικές εταιρείες AI απαγορεύουν αυτήν την πρακτική, αντιμετωπίζουν τις δικές τους δικαστικές διαμάχες για πνευματική ιδιοκτησία, καθώς χρησιμοποίησαν πνευματικά δικαιώματα για να αναπτύξουν συστήματα που μπορεί να ανταγωνίζονται αυτούς που δημιούργησαν τα δεδομένα εξαρχής.
Αυτό εγείρει ερωτήματα σχετικά με το ποιος θέτει τους κανόνες για την ανάπτυξη και την εκπαίδευση της AI και ρίχνει φως στις φανερά διπλές προτυπίες της βιομηχανίας. Κατά κάποιο τρόπο, φαίνεται ποιητική δικαιοσύνη για την Deepseek να αγνοεί αυτούς τους κανόνες για να προλάβει.