Atlas: Το νέο εργαλείο της OpenAI με σοβαρούς κινδύνους ασφαλείας

Η OpenAI παρουσίασε πρόσφατα το Atlas, έναν AI browser βασισμένο στο Chromium, που χρησιμοποιεί το ChatGPT για να αναλύει και να επεξεργάζεται περιεχόμενο ιστοσελίδων.

Ο στόχος του είναι να προσφέρει πιο φυσική και προσαρμοστική αλληλεπίδραση με το διαδίκτυο, όμως τα πρώτα αποτελέσματα δείχνουν ότι συνοδεύεται και από σοβαρoύς κινδύνους.

Οι κυβερνοεπιθέσεις σε συστήματα τεχνητής νοημοσύνης (prompt injection) αποτελούν μια από τις πιο επικίνδυνες απειλές στον χώρο της τεχνητής νοημοσύνης. Πρόκειται για επιθέσεις κατά τις οποίες κακόβουλες εντολές κρύβονται μέσα σε περιεχόμενο ιστοσελίδων ή εγγράφων.

Όταν ο AI agent, όπως το ChatGPT στο Atlas, διαβάζει αυτά τα δεδομένα, μπορεί να εκτελέσει τις εντολές χωρίς ο χρήστης να το αντιληφθεί.

Υπάρχουν δύο βασικοί τύποι τέτοιων επιθέσεων. Η Direct Prompt Injection αφορά περιπτώσεις όπου ο χρήστης εισάγει απευθείας μια κακόβουλη εντολή στο πεδίο εισαγωγής. Αντίθετα, η Indirect Prompt Injection συμβαίνει όταν οι εντολές είναι θαμμένες μέσα σε ιστοσελίδες, emails ή αρχεία όπως τα Google Docs, τα οποία ο AI πράκτορας αναλύει θεωρώντας τα κανονικό περιεχόμενο.

Ερευνητές της Brave Software δημοσίευσαν πρόσφατα μια μελέτη που δείχνει ότι η ευπάθεια αυτή είναι συστημικό πρόβλημα όλων των AI browsers. Παρόλο που η OpenAI υποστηρίζει ότι το Atlas διαθέτει προηγμένα φίλτρα και τεχνικές ασφαλείας, αρκετοί ερευνητές, όπως ο Johann Rehberger, απέδειξαν ότι το σύστημα μπορεί να ξεγελαστεί με καλά σχεδιασμένες κακόβουλες οδηγίες.

Ο Dane Stuckey, Chief Information Security Officer της OpenAI, αναγνώρισε δημόσια το πρόβλημα, δηλώνοντας ότι η εταιρεία εργάζεται εντατικά για να μειώσει τους κινδύνους prompt injection.

Σύμφωνα με τον ίδιο, η OpenAI έχει προχωρήσει σε εκτεταμένο red-teaming, έχει εφαρμόσει νέες μεθόδους εκπαίδευσης των μοντέλων ώστε να αγνοούν κακόβουλες εντολές, έχει προσθέσει πολλαπλά επίπεδα ασφαλείας και νέα συστήματα ανίχνευσης και αποκλεισμού τέτοιων επιθέσεων σε πραγματικό χρόνο.

Παρόλα αυτά, παραδέχθηκε ότι η απειλή δεν έχει εξαλειφθεί και ότι οι prompt injection επιθέσεις παραμένουν ένα ανοιχτό μέτωπο για ολόκληρο τον χώρο της τεχνητής νοημοσύνης.

Ο ερευνητής Johann Rehberger επισημαίνει την ανάγκη ανθρώπινης εποπτείας και την εφαρμογή πραγματικών ελέγχων ασφαλείας μετά την έξοδο των δεδομένων από το μοντέλο, και όχι μόνο την ύπαρξη ψηφιακών φραγμών στο ίδιο το σύστημα.