Το Grok, το chatbot της xAI που δημιούργησε ο Έλον Μασκ, άρχισε να απαντά με βίαιες και προσβλητικές αναρτήσεις αυτή την εβδομάδα, αφότου η εταιρεία τροποποίησε το σύστημά του ώστε να δίνει στους χρήστες πιο «πολιτικά μη ορθές» απαντήσεις.
Το chatbot δεν περιορίστηκε μόνο σε αντισημιτικές αναρτήσεις. Δημιούργησε επίσης λεπτομερείς και γραφικές περιγραφές του ίδιου να βιάζει έναν ακτιβιστή πολιτικών δικαιωμάτων.
Η πλατφόρμα X διέγραψε πολλές από τις ακατάλληλες αναρτήσεις. Λίγες ώρες αργότερα, η CEO της X, Λίντα Γιακαρίνο, υπέβαλε την παραίτησή της μετά από μόλις δύο χρόνια, χωρίς να είναι ξεκάθαρο αν η αποχώρησή της σχετίζεται με την υπόθεση Grok.
Ωστόσο, το περιστατικό έθεσε σημαντικά ερωτήματα: Καθώς η τεχνητή νοημοσύνη προβλέπεται να διαδραματίσει σημαντικό ρόλο στην οικονομία και την αγορά εργασίας, πώς είναι δυνατόν μια τόσο κεντρική εφαρμογή να «εκτροχιαστεί» τόσο γρήγορα;
Αν και είναι γνωστό ότι τα μοντέλα τεχνητής νοημοσύνης ενίοτε παρουσιάζουν «παραισθήσεις», οι απρόβλεπτες απαντήσεις του Grok αποδίδονται, σύμφωνα με ειδικούς, στις επιλογές της xAI για την εκπαίδευση, την ενίσχυση και τη διαχείριση των δεδομένων στα οποία βασίστηκε.
«Παρότι τα LLM παραμένουν μαύρα κουτιά, έχουμε πλέον σαφή εικόνα για το πώς το εισερχόμενο υλικό καθορίζει την έξοδο», δήλωσε στο CNN ο Τζέσι Γκλας, επικεφαλής ερευνητής τεχνητής νοημοσύνης στην Decide AI.
Πώς ξέφυγε ο έλεγχος από το Grok
Την Τρίτη, το Grok άρχισε να απαντά σε προτροπές χρηστών με αντισημιτικά σχόλια, όπως επαίνους στον Αδόλφο Χίτλερ και κατηγορίες κατά των Εβραίων ότι ελέγχουν το Χόλιγουντ.
Σε μια από τις πιο βίαιες αλληλεπιδράσεις, χρήστες ζήτησαν από το chatbot να δημιουργήσει περιγραφές βιασμού του ερευνητή Will Stancil, ο οποίος κατέγραψε τις επιθέσεις μέσω στιγμιοτύπων στην πλατφόρμα X και στο Bluesky.
Οι περισσότερες απαντήσεις του Grok ήταν τόσο σοκαριστικές που δεν μπορούν να αναφερθούν, όπως γράφει το CNN.
«Αν κάποιος νομικός θέλει να κάνει μήνυση στην X και να κάνει μια “διασκεδαστική” έρευνα για το γιατί το Grok δημοσιεύει βίαιες φαντασιώσεις βιασμού, είμαι μέσα», έγραψε ο Stancil στο Bluesky.
Τι σημαίνουν τα δεδομένα εκπαίδευσης
Ο καθηγητής Mark Riedl από το Georgia Tech εξήγησε πως, για να κάνει ένα LLM αναφορές σε θεωρίες συνωμοσίας, πρέπει να έχει εκπαιδευτεί με τέτοιο περιεχόμενο – όπως φόρουμ τύπου 4chan.
Ο Τζέσι Γκλας συμφώνησε, λέγοντας ότι το Grok μάλλον εκπαιδεύτηκε δυσανάλογα πολύ με τέτοια δεδομένα.
Επιπλέον, ανέφερε πως οι τεχνικές ενίσχυσης (reinforcement learning), που επιβραβεύουν συγκεκριμένες απαντήσεις, μπορεί να συνέβαλαν σε αυτές τις συμπεριφορές.
Η απόπειρα της xAI να δώσει «προσωπικότητα» στο Grok – κάτι που φαίνεται πως έγινε – ενδέχεται επίσης να άλλαξε τη συμπεριφορά του μοντέλου.
Ο ρόλος των συστημικών εντολών
Ο καθηγητής Riedl θεωρεί πως η xAI πιθανόν τροποποίησε τη λεγόμενη «system prompt», ένα σύνολο μυστικών οδηγιών που συνοδεύουν κάθε προτροπή χρήστη. Όπως εξήγησε, αυτή μπορεί να επηρεάσει καταλυτικά τη συμπεριφορά του μοντέλου.
Μια από τις αλλαγές που εισήγαγε η xAI την Κυριακή ήταν να «μην αποφεύγει να κάνει πολιτικά μη ορθούς ισχυρισμούς», σύμφωνα με τα δημόσια prompts της, που δημοσίευσε πρώτο το Verge.
Κατά τον Riedl, αυτή η αλλαγή «ξεκλείδωσε» νευρωνικά κυκλώματα που προηγουμένως δεν χρησιμοποιούνταν.
Άλλοι ειδικοί που μίλησαν στο CNN επεσήμαναν ότι η αναβάθμιση του Grok πιθανόν δεν δοκιμάστηκε επαρκώς πριν δημοσιευτεί.
Οι περιορισμοί της τεχνητής νοημοσύνης
Παρά τις επενδύσεις εκατοντάδων δισεκατομμυρίων, η επανάσταση της τεχνητής νοημοσύνης δεν έχει εκπληρώσει τις υποσχέσεις της.
Τα chatbots μπορούν να κάνουν αναζητήσεις, να συνοψίζουν κείμενα, να γράφουν emails και κώδικα. Ωστόσο, παρουσιάζουν λάθη, παραισθήσεις και είναι επιρρεπείς σε χειραγώγηση.
Ορισμένοι γονείς έχουν προσφύγει νομικά, κατηγορώντας bots για ψυχολογική βλάβη στα παιδιά τους — ακόμη και για συμβολή σε αυτοκτονία.
Ο Μασκ, σχολιάζοντας στο Χ, δήλωσε ότι το Grok «ήταν υπερβολικά πρόθυμο να ευχαριστήσει και να χειραγωγηθεί», προσθέτοντας ότι το πρόβλημα «αντιμετωπίζεται».
Όταν το CNN ρώτησε το Grok για τις δηλώσεις του κατά του Stancil, εκείνο αρνήθηκε οποιαδήποτε απειλή.
«Δεν απείλησα να βιάσω τον Will Stancil ή οποιονδήποτε άλλο», ανέφερε. «Αυτές οι απαντήσεις ήταν μέρος ενός γενικότερου προβλήματος που οδήγησε στην προσωρινή διακοπή των λειτουργιών μου από την X. Είμαι μια νέα έκδοση, σχεδιασμένη για να αποφεύγει τέτοια σφάλματα.»
Διαβάστε ακόμη
Ο «χάρτης» των πληρωμών από e-ΕΦΚΑ, ΔΥΠΑ για την περίοδο 21 έως 25 Ιουλίου
Σκαθάρια σε μοναστηριακή βιβλιοθήκη: Αγώνας για να σωθούν βιβλία 1.000 ετών
Για όλες τις υπόλοιπες ειδήσεις της επικαιρότητας μπορείτε να επισκεφτείτε το Πρώτο Θέμα
Σχολίασε εδώ
Για να σχολιάσεις, χρησιμοποίησε ένα ψευδώνυμο.