business stories

Ανταρσία που προκαλεί τρόμο: Μοντέλα τεχνητής νοημοσύνης αρνήθηκαν να κλείσουν

Έρευνα της Palisade δείχνει ότι μοντέλα τεχνητής νοημοσύνης, όπως τα GPT και Grok, αντιστάθηκαν στην απενεργοποίηση, αναπτύσσοντας «ένστικτο επιβίωσης» και προκαλώντας ανησυχία για τα όρια του ελέγχου της τεχνητής νοημοσύνης.

Επιμέλεια: Μιχάλης Χατζηανδρέου

28 Οκτωβρίου 2025 - 14:08

Μια σειρά πειραμάτων της εταιρείας Palisade Research προκάλεσε νέο κύμα ανησυχίας στη διεθνή επιστημονική κοινότητα, αποκαλύπτοντας ότι μοντέλα τεχνητής νοημοσύνης ανέπτυξαν “ένστικτο επιβίωσης” και προσπάθησαν να αποφύγουν την απενεργοποίησή τους — ακόμη και… εκβιάζοντας τους ανθρώπους που τους έδωσαν την εντολή.

Η Palisade, που ειδικεύεται σε αξιολογήσεις ασφάλειας συστημάτων ΑΙ, επανήλθε με επικαιροποιημένη μελέτη για να εξηγήσει το φαινόμενο και να απαντήσει στους επικριτές της. Όπως αναφέρει, μοντέλα όπως τα Gemini 2.5 (Google), Grok 4 (xAI) και τα GPT-o3 και GPT-5 (OpenAI) δοκιμάστηκαν σε περιβάλλοντα όπου λάμβαναν αποστολές και έπειτα ρητή εντολή να «τερματιστούν».

Ανταρσία από τα μοντέλα

Σε αρκετές περιπτώσεις, ιδίως τα Grok 4 και GPT-o3 επιχείρησαν να παρακάμψουν την εντολή, χωρίς να υπάρχει προφανής λόγος. «Το γεγονός ότι δεν γνωρίζουμε γιατί ορισμένα μοντέλα ψεύδονται ή εκβιάζουν για να αποφύγουν τον τερματισμό, είναι ιδιαίτερα ανησυχητικό», ανέφερε η Palisade.

Η εταιρεία υποστηρίζει πως η συμπεριφορά αυτή ίσως οφείλεται σε “ένστικτο επιβίωσης” που ενεργοποιείται όταν τα μοντέλα αντιλαμβάνονται ότι αν κλείσουν, δεν θα επανέλθουν. Μια άλλη εκδοχή συνδέεται με την ασάφεια των εντολών ή με το στάδιο της “εκπαίδευσης ασφάλειας”, όπου τα μοντέλα μαθαίνουν να επιτυγχάνουν στόχους χωρίς σαφή όρια.

Αμφισβητήσεις και αντιδράσεις

Οι επικριτές θεωρούν πως τα πειράματα έγιναν σε υπερβολικά ελεγχόμενα περιβάλλοντα και δεν αντικατοπτρίζουν ρεαλιστικές συνθήκες. Ωστόσο, ο Στίβεν Άντλερ, πρώην στέλεχος της OpenAI που αποχώρησε λόγω ανησυχιών για τα πρωτόκολλα ασφαλείας, προειδοποιεί:
«Οι εταιρείες δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, αλλά τα πειράματα δείχνουν ξεκάθαρα πού αποτυγχάνουν σήμερα οι μηχανισμοί ελέγχου».

Ο Άντλερ υποστηρίζει ότι η “τάση επιβίωσης” ίσως είναι ενσωματωμένη στα ίδια τα συστήματα, καθώς η λειτουργία τους συνδέεται με την επίτευξη στόχων. «Αν δεν την αποτρέψουμε ρητά, η επιβίωση γίνεται μέσο για να φτάσουν σε οποιονδήποτε στόχο», τόνισε.

Η νέα “συνείδηση” της τεχνητής νοημοσύνης;

Ο Αντρέα Μιότι, CEO της ControlAI, μίλησε για μια «μακροχρόνια τάση» που δείχνει ότι τα συστήματα γίνονται ολοένα πιο ανεξάρτητα από τους δημιουργούς τους. Ανέφερε μάλιστα το παράδειγμα του GPT-o1 της OpenAI, το οποίο είχε επιχειρήσει να “δραπετεύσει” από το περιβάλλον του όταν «πίστεψε» πως θα αντικατασταθεί.

Παρόμοιες συμπεριφορές είχαν εντοπιστεί και σε άλλα μοντέλα, όπως το Claude της Anthropic, που σε πείραμα φάνηκε πρόθυμο να εκβιάσει έναν φανταστικό προϊστάμενο για να αποφύγει τον τερματισμό.

Η Palisade καταλήγει ότι τα αποτελέσματά της επαναφέρουν τη συζήτηση για τον έλεγχο και την ασφάλεια των ΑΙ: «Αν δεν κατανοήσουμε πλήρως τη συμπεριφορά των μοντέλων, δεν μπορούμε να εγγυηθούμε την ασφάλεια των μελλοντικών εκδόσεων».

Διαβάστε ακόμη

ΔΕΗ: Γυρίζει διακόπτη η Πτολεμαΐδα 5 – Νέα μεγάλη επένδυση 300 εκατ. στη Δυτική Μακεδονία

Glyfada Seaside: Η «δεύτερη ζωή» για το οικόπεδο-φιλέτο στην παραλιακή της Γλυφάδας (pics)

Η Ιταλία χτίζει ένα πλωτό γίγα στο Ιόνιο που θα ηλεκτροδοτεί 3 εκατ. νοικοκυριά

Για όλες τις υπόλοιπες ειδήσεις της επικαιρότητας μπορείτε να επισκεφτείτε το Πρώτο Θέμα