Η τεχνητή νοημοσύνη βρίσκεται ένα βήμα πριν από ένα επίτευγμα που μέχρι πρόσφατα φάνταζε αδιανόητο: να αγγίξει το απόλυτο σκορ σε ένα από τα πιο απαιτητικά τεστ γνώσεων παγκοσμίως, το Humanity’s Last Exam (HLE). Σύμφωνα με τους δημιουργούς του, αυτό το ορόσημο ενδέχεται να επιτευχθεί μέσα στους επόμενους μήνες, σηματοδοτώντας μια νέα φάση στην εξέλιξη των συστημάτων ΑΙ.

Το HLE σχεδιάστηκε από στελέχη του τεχνολογικού χώρου ως ένα εργαλείο ακριβούς αποτύπωσης της «νοητικής εμβέλειας» των σύγχρονων μοντέλων. Περιλαμβάνει 2.500 προσεκτικά επιλεγμένες ερωτήσεις, κατανεμημένες σε περίπου 100 επιστημονικά και γνωστικά πεδία — από την πυραυλική μηχανική και τη μυθολογία έως τη φυσιολογία. Η δυσκολία του είναι τέτοια, ώστε κάθε απάντηση απαιτεί επίπεδο κατανόησης αντίστοιχο διδακτορικού. Ένα σκορ κοντά στο 100% δεν αποτυπώνει απλώς επιτυχία, αλλά αποδίδει τον τίτλο του «καθολικού ειδικού».

Από το χάσμα στην επιτάχυνση

Μόλις πριν από δύο χρόνια, το ChatGPT της OpenAI είχε καταγράψει επίδοση μόλις 3%, ενώ τα αντίστοιχα μοντέλα της Google και της Anthropic κινήθηκαν σε παρόμοια επίπεδα. Το αποτέλεσμα εκείνης της περιόδου λειτούργησε καθησυχαστικά για την ακαδημαϊκή κοινότητα, καθώς ανέδειξε ένα σαφές χάσμα μεταξύ των μεγάλων γλωσσικών μοντέλων και των κορυφαίων επιστημόνων.

Σήμερα, όμως, η εικόνα έχει αλλάξει ριζικά. Το Gemini της Google έφτασε το 45,9% τον Φεβρουάριο, από 18,8% σε ελάχιστους μήνες, αποτυπώνοντας τον εκρηκτικό ρυθμό εξέλιξης. Ο Κάλβιν Ζανγκ, επικεφαλής έρευνας στη Scale —την εταιρεία πίσω από το τεστ— θεωρεί πλέον ότι το τέλειο σκορ δεν είναι θεωρητικό ενδεχόμενο, αλλά ρεαλιστικός στόχος.

«Θέλαμε να δημιουργήσουμε ένα benchmark στο επίπεδο των κορυφαίων ανθρώπινων ειδικών, κάτι που μόνο ελάχιστοι μπορούν να επιλύσουν», σημείωσε.

Η Κέιτ Ολζέσβκα από τη DeepMind υπογράμμισε την εντυπωσιακή πρόοδο: «Τα τελευταία χρόνια βλέπουμε τεράστια βελτίωση στις ικανότητες συλλογισμού. Αν αυτό ήταν το μοναδικό ζητούμενο, θα μπορούσαμε να φτάσουμε εκεί πολύ γρήγορα».

Η Anthropic, με το σύστημα Claude, έχει ήδη φτάσει στο 34,2% και συνεχίζει να βελτιώνεται με ταχείς ρυθμούς. Η επίτευξη του 100% θα αποτελούσε μια ιστορική καμπή, δεδομένου ότι το HLE έχει σχεδιαστεί ως το «τελευταίο ακαδημαϊκό benchmark κλειστού τύπου».

Τι σημαίνει ένα τέλειο σκορ

Η κατάκτηση του HLE δεν θα είναι απλώς ένα ακόμη τεχνολογικό επίτευγμα. Θα σηματοδοτήσει τη μετάβαση σε μια εποχή όπου τα συστήματα τεχνητής νοημοσύνης θα πρέπει να αξιολογούνται με ερωτήματα των οποίων οι απαντήσεις δεν είναι γνωστές ούτε στους ανθρώπους. Με άλλα λόγια, η αξιολόγηση θα μετακινηθεί πέρα από τα όρια της ανθρώπινης γνώσης.

Πώς σχεδιάστηκε το πιο δύσκολο τεστ

Το HLE αναπτύχθηκε από τη Scale σε συνεργασία με τον οργανισμό Center for AI Safety, με στόχο να εξετάσει τόσο το εύρος γνώσεων όσο και το βάθος συλλογιστικής ικανότητας της ΑΙ. Ειδικοί από περίπου 50 χώρες υπέβαλαν συνολικά 70.000 ερωτήσεις, ανταποκρινόμενοι σε διεθνή πρόσκληση τον Σεπτέμβριο του 2024, η οποία συνοδευόταν από χρηματικό έπαθλο 500.000 δολαρίων.

Οι ερωτήσεις έπρεπε να διαθέτουν σαφείς και σύντομες απαντήσεις, ενώ ταυτόχρονα να μην είναι εύκολα εντοπίσιμες στο διαδίκτυο. Μετά από διαδοχικά φιλτραρίσματα, ο αριθμός περιορίστηκε στις 13.000, αφαιρώντας όσες μπορούσαν ήδη να απαντηθούν από υπάρχοντα μοντέλα. Τελικά, επιλέχθηκαν 2.500 ερωτήσεις, με ορισμένες να τροποποιούνται ή να αποσύρονται βάσει ανατροφοδότησης χρηστών. Ένα μέρος τους παραμένει σκόπιμα μυστικό, ώστε να αποφεύγεται η «εκπαίδευση» των μοντέλων μέσω δημόσιων συζητήσεων.

Από τον Κασπάροφ στην επόμενη εποχή

Η πιθανή επιτυχία στο HLE θυμίζει τη νίκη του Deep Blue της IBM επί του Γκάρι Κασπάροφ το 1997 — μια στιγμή που ανέτρεψε τις προσδοκίες της εποχής. Από τότε, σειρά σημαντικών benchmarks έχουν ξεπεραστεί, όπως το Massive Multitask Language Understanding (MMLU), το οποίο μετά το 2020 έπαψε να αποτελεί πρόκληση, καθώς τα μοντέλα άρχισαν να σημειώνουν επιδόσεις άνω του 90%.

«Καθώς η ΑΙ πλησιάζει να κατακτήσει τεστ που σχεδιάστηκαν από ανθρώπους, η υπέρβαση των ορίων της ανθρώπινης γνώσης γίνεται βασικός στόχος», σημείωσε η Ολζέσβκα.

Παρά την εντυπωσιακή πρόοδο, ο Ζανγκ επισημαίνει ότι η ανθρώπινη εξειδίκευση θα διατηρήσει τον ρόλο της — ιδίως σε πεδία που απαιτούν πρακτική εμπειρία, κρίση και δημιουργικότητα, όπως η χειρουργική, όπου η τεχνητή νοημοσύνη εξακολουθεί να υστερεί.

Διαβάστε ακόμη 

Οι ευρωπαϊκές μετοχές στο στόχαστρο: Σορτάρισμα – ρεκόρ από τα hedge funds λόγω του πολέμου στο Ιράν

Στον όμιλο Alshaya τα Starbucks στην Ελλάδα – Τέλος στη συνεργασία με τον Μαρινόπουλο

Πυρηνικός κίνδυνος: Συναγερμός για διαρροή ραδιενέργειας στον Περσικό Κόλπο – Προειδοποίηση ΙΑΕΑ

Για όλες τις υπόλοιπες ειδήσεις της επικαιρότητας μπορείτε να επισκεφτείτε το Πρώτο Θέμα