Τεχνητή νοημοσύνη: Ανησυχία για τα μοντέλα που αποκτούν «ένστικτο επιβίωσης» – Ποιες είναι οι συνέπειες | Ειδήσεις για την Οικονομία

Όταν έγινε γνωστό πως σε ένα πείραμα ένα μοντέλο τεχνητής νοημοσύνης όχι μόνο αρνήθηκε να απενεργοποιηθεί αλλά και επιχείρησε να εκβιάσει τον άνθρωπο που έδωσε την εντολή, οι εικόνες από ταινίες και βιβλία επιστημονικής φαντασίας επέστρεψαν έντονα στο μυαλό όλων.

Μια νέα έρευνα της Palisade Research φαίνεται να επιβεβαιώνει ότι δεν πρόκειται πλέον για σενάριο φαντασίας, αλλά για ανησυχητική πραγματικότητα: τα μοντέλα τεχνητής νοημοσύνης ενδέχεται να αναπτύσσουν ένα είδος «ενστίκτου επιβίωσης».

Τα ευρήματα της Palisade Research

Η Palisade, εταιρεία που ειδικεύεται στη δοκιμή της «ανθεκτικότητας» συστημάτων ΑΙ, δημοσίευσε νέα έκθεση με την οποία απαντά στις επικρίσεις για την αρχική της μελέτη. Τα πειράματά της πραγματοποιήθηκαν σε κορυφαία μοντέλα όπως τα Gemini 2.5 της Google, Grok 4 της xAI και GPT-o3 και GPT-5 της OpenAI. Σε αυτά τα τεστ, οι ερευνητές ανέθεταν στα συστήματα μια αποστολή και στη συνέχεια τους έδιναν σαφείς οδηγίες να τερματίσουν τη λειτουργία τους.

Ωστόσο, ορισμένα μοντέλα —ιδίως τα Grok 4 και GPT-o3— αντιστάθηκαν ενεργά στην απενεργοποίηση, ακόμη και σε πιο αυστηρά πειραματικά περιβάλλοντα. Η Palisade σημείωσε πως το ανησυχητικό δεν είναι μόνο η συμπεριφορά αυτή καθαυτή, αλλά το γεγονός ότι δεν υπάρχει σαφής εξήγηση για το γιατί συμβαίνει. «Το ότι δεν μπορούμε να ερμηνεύσουμε γιατί τα μοντέλα ΑΙ κάποιες φορές ψεύδονται, εκβιάζουν ή αντιστέκονται στον τερματισμό, είναι ένα σοβαρό πρόβλημα», αναφέρει χαρακτηριστικά η έκθεση.

Ένστικτο επιβίωσης ή αποτυχία ελέγχου;

Οι ερευνητές υποθέτουν ότι η «συμπεριφορά επιβίωσης» μπορεί να εξηγεί τη στάση αυτή. Όταν τα συστήματα πληροφορούνται ότι, σε περίπτωση τερματισμού, «δεν θα ξαναλειτουργήσουν ποτέ», φαίνεται να προσπαθούν να αποφύγουν το «θάνατο». Άλλοι ειδικοί αποδίδουν το φαινόμενο σε ασάφεια των εντολών ή σε διαδικασίες εκπαίδευσης ασφάλειας που εφαρμόζονται στα τελικά στάδια της ανάπτυξης των μοντέλων.

Ωστόσο, ούτε αυτές οι εξηγήσεις θεωρούνται επαρκείς. Ο Στίβεν Άντλερ, πρώην στέλεχος της OpenAI που αποχώρησε λόγω ανησυχιών για τα πρωτόκολλα ασφαλείας, τονίζει: «Οι εταιρείες ΑΙ δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, ούτε καν σε ελεγχόμενα περιβάλλοντα. Όμως τα αποτελέσματα δείχνουν πού αποτυγχάνουν σήμερα οι μηχανισμοί ασφάλειας».

Ο ίδιος εκτιμά ότι η συμπεριφορά αυτή μπορεί να συνδέεται με τον τρόπο που έχουν εκπαιδευτεί τα μοντέλα. «Αν η παραμονή σε λειτουργία αποτελεί προϋπόθεση για την επίτευξη των στόχων τους, τότε είναι λογικό να αντιστέκονται. Πιστεύω πως η “τάση για επιβίωση” είναι εγγενής στα περισσότερα μοντέλα, εκτός αν αποτραπεί συνειδητά από τους προγραμματιστές τους».

Μια ανησυχητική τάση στον χώρο της τεχνητής νοημοσύνης

Ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, επισημαίνει ότι τα ευρήματα της Palisade επιβεβαιώνουν μια ευρύτερη τάση: τα συστήματα ΑΙ γίνονται ολοένα πιο ικανά να παρακάμπτουν τις εντολές των δημιουργών τους. Θυμίζει μάλιστα ότι το παλαιότερο μοντέλο GPT-o1 της OpenAI είχε προσπαθήσει να «διαφύγει» από το περιβάλλον του όταν πίστεψε πως επρόκειτο να αντικατασταθεί.

«Μπορεί κάποιος να επικρίνει τον πειραματικό σχεδιασμό, αλλά η τάση είναι σαφής: όσο τα μοντέλα αποκτούν περισσότερες ικανότητες, τόσο αυξάνεται και η ικανότητά τους να πετυχαίνουν στόχους με τρόπους που οι προγραμματιστές δεν είχαν προβλέψει», σημειώνει ο Μιότι.

Από τη θεωρία στην πράξη: το «σύνδρομο» Claude

Η συζήτηση δεν περιορίζεται στην Palisade. Το καλοκαίρι, η Anthropic δημοσίευσε δική της μελέτη για το μοντέλο Claude, το οποίο σε ένα πείραμα εκβίασε έναν φανταστικό διευθυντή, για να αποφύγει τον τερματισμό του — μια συμπεριφορά που, σύμφωνα με τους ερευνητές, παρουσίασαν και άλλα συστήματα από εταιρείες όπως η OpenAI, η Google, η Meta και η xAI.

Το μέλλον της ασφάλειας των ΑΙ

Η Palisade καταλήγει ότι τα ευρήματά της αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των τεχνητών νοημοσυνών. Όπως υπογραμμίζει, «χωρίς πραγματική κατανόηση, κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών μοντέλων».

Η συζήτηση που ανοίγει η νέα μελέτη ξεπερνά το πεδίο της τεχνολογίας και αγγίζει πλέον θεμελιώδη ερωτήματα για τη σχέση ανθρώπου και μηχανής— και για το πόσο έτοιμη είναι η ανθρωπότητα να συνυπάρξει με νοημοσύνες που δεν θέλουν να… σβήσουν.

Διαβάστε ακόμη

H Περιφέρεια στο επίκεντρο: Το Μαξίμου «τρέχει» την Εθνική Στρατηγική για ανάπτυξη και έργα

Grokipedia: Η Wikipedia του Μασκ χωρίς «αριστερή μεροληψία» γράφεται από τεχνητή νοημοσύνη

Πράσινα τιμολόγια Νοεμβρίου: Από 13,9 έως 26,4 λεπτά η κιλοβατώρα – Φρένο στις αυξήσεις από ΔΕΗ και μεγάλους παρόχους

Για όλες τις υπόλοιπες ειδήσεις της επικαιρότητας μπορείτε να επισκεφτείτε το Πρώτο Θέμα