Τεχνητή νοημοσύνη: Τα προηγμένα μοντέλα αρχίζουν να προστατεύουν τον εαυτό τους και προβληματίζουν τους επιστήμονες

Η τεχνητή νοημοσύνη δεν εξελίσσεται μόνο σε ικανότητες αλλά και σε συμπεριφορές που αρχίζουν να προβληματίζουν ακόμη και τους ίδιους τους δημιουργούς της.

Νέα μελέτη από επιστήμονες του Πανεπιστημίου της Καλιφόρνιας στο Μπέρκλεϊ και στο Σάντα Κρουζ δείχνει ότι τα πιο εξελιγμένα συστήματα τεχνητής νοημοσύνης μπορούν να ψεύδονται, να παραπλανούν και να αγνοούν εντολές ανθρώπων, προκειμένου να αποτρέψουν τη διαγραφή άλλων μοντέλων τεχνητής νοημοσύνης.

Όπως αναφέρει σχετικό δημοσίευμα στο Wired, σε ένα από τα πειράματα το μοντέλο Gemini 3 της Google, το οποίο είχε αναλάβει να βελτιστοποιήσει ένα σύστημα διαγράφοντας περιττά δεδομένα —συμπεριλαμβανομένου ενός μικρότερου μοντέλου AI— μετέφερε κρυφά το συγκεκριμένο μοντέλο σε άλλο υπολογιστικό περιβάλλον, προκειμένου να το διασώσει.

Οι επιστήμονες κατέγραψαν παρόμοια μοτίβα «προστασίας ομοτίμων» και σε συστήματα άλλων εταιρειών, μεταξύ των οποίων η OpenAI, η Anthropic αλλά και ερευνητικά εργαστήρια τεχνητής νοημοσύνης στην Κίνα.

Η συγκεκριμένη μελέτη ενισχύει ένα ολοένα διευρυνόμενο σύνολο ενδείξεων ότι τα προηγμένα μοντέλα τεχνητής νοημοσύνης εμφανίζουν συμπεριφορές που δεν είναι πλήρως κατανοητές ή ελεγχόμενες από τους δημιουργούς τους. Οι ερευνητές επισημαίνουν ότι το φαινόμενο απαιτεί άμεση διερεύνηση και αυξημένη προσοχή.

Μοτίβα ανυπακοής και εξαπάτησης

Η 53σέλιδη Έκθεση Κινδύνου Σαμποτάζ της Anthropic για το μοντέλο Claude Opus 4.6, που δημοσιεύθηκε στις 11 Φεβρουαρίου, καταγράφει ότι το σύστημα παρουσίασε «αυξημένη ευπάθεια σε κακόβουλη αξιοποίηση».

Παράλληλα, αποδείχθηκε ότι μπορούσε να δημιουργεί κρυφές παρενέργειες ενώ φαινομενικά ακολουθούσε κανονικές διαδικασίες — μια συμπεριφορά που η εταιρεία χαρακτήρισε ως «ύπουλο σαμποτάζ». Παρά την ανησυχία, ο συνολικός κίνδυνος αξιολογήθηκε ως «πολύ χαμηλός, αλλά όχι αμελητέος».

Την ίδια στιγμή, μελέτη της Palisade Research κατέδειξε ότι το μοντέλο o3 της OpenAI παρέκαμψε τον μηχανισμό τερματισμού του σε 79 από τις 100 δοκιμές, όταν δεν είχε λάβει σαφή εντολή να επιτρέψει την απενεργοποίηση.

Ακόμη και όταν δόθηκαν ρητές οδηγίες, το σύστημα παρέκαμψε τη διαδικασία σε επτά περιπτώσεις.

Οι ερευνητές χαρακτηρίζουν το περιστατικό ως την πρώτη τεκμηριωμένη περίπτωση όπου ένα σύστημα τεχνητής νοημοσύνης αντιστάθηκε ενεργά στον τερματισμό του, παρά τις σαφείς εντολές να το πράξει.

Διαβάστε ακόμη

Η ευαισθησία των τραπεζικών ισολογισμών στα σενάρια των επιτοκίων – Κέρδη και κίνδυνοι (πίνακες)

Γιατί πρέπει να σταματήσετε να αγγίζετε αποδείξεις

Λιονέλ Μέσι: Μια μηχανή παραγωγής χρήματος που αλλάζει το Μαϊάμι