Οι ερευνητές του Anthropic εντόπισαν με επιτυχία εκατομμύρια έννοιες μέσα στο Claude Sonnet, ένα από τα προηγμένα LLM τους. Τα μοντέλα τεχνητής νοημοσύνης συχνά θεωρούνται μαύρα κουτιά, πράγμα που σημαίνει ότι δεν μπορείτε να “δείτε” μέσα τους για να καταλάβετε ακριβώς πώς λειτουργούν. Όταν παρέχετε σε ένα LLM μια είσοδο, αυτό παράγει μια απάντηση, αλλά η λογική πίσω από τις επιλογές του δεν είναι σαφής. Η είσοδός σας μπαίνει μέσα και η έξοδος βγαίνει έξω – και ακόμη και οι ίδιοι οι προγραμματιστές ΤΝ δεν κατανοούν πραγματικά τι συμβαίνει μέσα σε αυτό το “κουτί”.
Τα νευρωνικά δίκτυα δημιουργούν τις δικές τους εσωτερικές αναπαραστάσεις των πληροφοριών όταν αντιστοιχίζουν τις εισόδους στις εξόδους κατά τη διάρκεια της εκπαίδευσης δεδομένων. Τα δομικά στοιχεία αυτής της διαδικασίας, που ονομάζονται “ενεργοποιήσεις νευρώνων”, αναπαρίστανται με αριθμητικές τιμές.
Κάθε έννοια κατανέμεται σε πολλούς νευρώνες και κάθε νευρώνας συμβάλλει στην αναπαράσταση πολλών εννοιών, γεγονός που καθιστά δύσκολη την απευθείας αντιστοίχιση εννοιών σε μεμονωμένους νευρώνες. Αυτό είναι σε γενικές γραμμές ανάλογο με τον ανθρώπινο εγκέφαλό μας. Ακριβώς όπως ο εγκέφαλός μας επεξεργάζεται τις αισθητηριακές εισροές και παράγει σκέψεις, συμπεριφορές και μνήμες, τα δισεκατομμύρια, ακόμη και τα τρισεκατομμύρια, των διεργασιών πίσω από αυτές τις λειτουργίες παραμένουν κυρίως άγνωστες στην επιστήμη.
Η μελέτη της Anthropic επιχειρεί να δει μέσα στο μαύρο κουτί της Τεχνητής Νοημοσύνης με μια τεχνική που ονομάζεται “εκμάθηση λεξικού”. Αυτή περιλαμβάνει την αποσύνθεση πολύπλοκων μοτίβων σε ένα μοντέλο ΤΝ σε γραμμικά δομικά στοιχεία ή “άτομα”.
Χαρτογράφηση LLMs με εκμάθηση λεξικού
Τον Οκτώβριο του 2023, η Anthropic εφάρμοσε αυτή τη μέθοδο σε ένα μικροσκοπικό γλωσσικό μοντέλο “παιχνίδι” και βρήκε συνεκτικά χαρακτηριστικά που αντιστοιχούν σε έννοιες όπως κεφαλαία γράμματα κειμένου, ακολουθίες DNA, επώνυμα σε παραπομπές, μαθηματικά ουσιαστικά ή ορίσματα συναρτήσεων στον κώδικα Python. Αυτή η τελευταία μελέτη κλιμακώνει την τεχνική ώστε να λειτουργεί για τα σημερινά μεγαλύτερα γλωσσικά μοντέλα τεχνητής νοημοσύνης, στην προκειμένη περίπτωση, Claude 3.0 Sonnet της Anthropic.
Ακολουθεί μια βήμα προς βήμα παρουσίαση του τρόπου με τον οποίο λειτούργησε η μελέτη:
Εντοπισμός μοτίβων με εκμάθηση λεξικού
Η Anthropic χρησιμοποίησε την εκμάθηση λεξικού για να αναλύσει τις ενεργοποιήσεις των νευρώνων σε διάφορα πλαίσια και να εντοπίσει κοινά μοτίβα. Η εκμάθηση λεξικού ομαδοποιεί αυτές τις ενεργοποιήσεις σε ένα μικρότερο σύνολο σημαντικών “χαρακτηριστικών”, που αντιπροσωπεύουν έννοιες υψηλότερου επιπέδου που μαθαίνει το μοντέλο. Με τον εντοπισμό αυτών των χαρακτηριστικών, οι ερευνητές μπορούν να κατανοήσουν καλύτερα τον τρόπο με τον οποίο το μοντέλο επεξεργάζεται και αναπαριστά τις πληροφορίες.
Εξαγωγή χαρακτηριστικών από το μεσαίο στρώμα
Οι ερευνητές επικεντρώθηκαν στο μεσαίο στρώμα του Claude 3.0 Sonnet, το οποίο χρησιμεύει ως κρίσιμο σημείο στον αγωγό επεξεργασίας του μοντέλου. Η εφαρμογή της μάθησης λεξικού σε αυτό το στρώμα εξάγει εκατομμύρια χαρακτηριστικά που αποτυπώνουν τις εσωτερικές αναπαραστάσεις του μοντέλου και τις έννοιες που μαθαίνονται σε αυτό το στάδιο. Η εξαγωγή χαρακτηριστικών από το μεσαίο στρώμα επιτρέπει στους ερευνητές να εξετάσουν την κατανόηση της πληροφορίας από το μοντέλο μετά την επεξεργασία της εισόδου πριν από τη δημιουργία της τελικής εξόδου.
Ανακάλυψη διαφορετικών και αφηρημένων εννοιών
Τα χαρακτηριστικά που εξήχθησαν αποκάλυψαν ένα ευρύ φάσμα εννοιών που έμαθε η Claude, από συγκεκριμένες οντότητες όπως οι πόλεις και οι άνθρωποι μέχρι αφηρημένες έννοιες που σχετίζονται με επιστημονικά πεδία και συντακτικό προγραμματισμού. Είναι ενδιαφέρον ότι τα χαρακτηριστικά βρέθηκαν να είναι πολυτροπικά, ανταποκρινόμενα τόσο σε εισροές κειμένου όσο και σε οπτικές εισροές, υποδεικνύοντας ότι το μοντέλο μπορεί να μάθει και να αναπαραστήσει έννοιες σε διαφορετικές μορφές. Επιπλέον, τα πολύγλωσσα χαρακτηριστικά υποδηλώνουν ότι το μοντέλο μπορεί να κατανοήσει έννοιες που εκφράζονται σε διάφορες γλώσσες.
Ανάλυση της οργάνωσης των εννοιών
Για να κατανοήσουν πώς το μοντέλο οργανώνει και συσχετίζει τις διάφορες έννοιες, οι ερευνητές ανέλυσαν την ομοιότητα μεταξύ των χαρακτηριστικών με βάση τα μοτίβα ενεργοποίησής τους. Ανακάλυψαν ότι τα χαρακτηριστικά που αντιπροσωπεύουν συναφείς έννοιες τείνουν να συγκεντρώνονται μαζί. Για παράδειγμα, τα χαρακτηριστικά που σχετίζονται με πόλεις ή επιστημονικούς κλάδους παρουσίαζαν μεγαλύτερη ομοιότητα μεταξύ τους από ό,τι τα χαρακτηριστικά που αντιπροσωπεύουν άσχετες έννοιες. Αυτό υποδηλώνει ότι η εσωτερική οργάνωση των εννοιών του μοντέλου ευθυγραμμίζεται, σε κάποιο βαθμό, με τις ανθρώπινες διαισθήσεις σχετικά με τις εννοιολογικές σχέσεις
Επαλήθευση των χαρακτηριστικών
Για να επιβεβαιώσουν ότι τα προσδιορισμένα χαρακτηριστικά επηρεάζουν άμεσα τη συμπεριφορά και τις εξόδους του μοντέλου, οι ερευνητές διεξήγαγαν πειράματα “διεύθυνσης χαρακτηριστικών”. Αυτό περιελάμβανε την επιλεκτική ενίσχυση ή καταστολή της ενεργοποίησης συγκεκριμένων χαρακτηριστικών κατά την επεξεργασία του μοντέλου και την παρατήρηση του αντίκτυπου στις αποκρίσεις του. Χειριζόμενοι μεμονωμένα χαρακτηριστικά, οι ερευνητές μπορούσαν να δημιουργήσουν μια άμεση σύνδεση μεταξύ μεμονωμένων χαρακτηριστικών και της συμπεριφοράς του μοντέλου. Για παράδειγμα, η ενίσχυση ενός χαρακτηριστικού που σχετίζεται με μια συγκεκριμένη πόλη έκανε το μοντέλο να παράγει εξόδους με βάση την πόλη, ακόμη και σε άσχετα περιβάλλοντα.
Γιατί η ερμηνευσιμότητα είναι κρίσιμη για την ασφάλεια της ΤΝ
Η έρευνα της Anthropic έχει θεμελιώδη σημασία για την ερμηνευσιμότητα της ΤΝ και, κατ’ επέκταση, για την ασφάλεια. Η κατανόηση του τρόπου με τον οποίο τα LLM επεξεργάζονται και αναπαριστούν πληροφορίες βοηθά τους ερευνητές να κατανοήσουν και να μετριάσουν τους κινδύνους. Θέτει τα θεμέλια για την ανάπτυξη πιο διαφανών και εξηγήσιμων συστημάτων ΤΝ.
Όπως εξηγεί ο Anthropic, “Ελπίζουμε ότι εμείς και άλλοι μπορούμε να χρησιμοποιήσουμε αυτές τις ανακαλύψεις για να κάνουμε τα μοντέλα πιο ασφαλή. Για παράδειγμα, θα μπορούσε να είναι δυνατή η χρήση των τεχνικών που περιγράφονται εδώ για την παρακολούθηση των συστημάτων τεχνητής νοημοσύνης για ορισμένες επικίνδυνες συμπεριφορές (όπως η εξαπάτηση του χρήστη), για την κατεύθυνσή τους προς επιθυμητά αποτελέσματα (debiasing) ή για την πλήρη απομάκρυνση ορισμένων επικίνδυνων αντικειμένων”.
Το ξεκλείδωμα μιας μεγαλύτερης κατανόησης της συμπεριφοράς των ΤΝ καθίσταται υψίστης σημασίας καθώς αυτά καθίστανται πανταχού παρόντα για κρίσιμες διαδικασίες λήψης αποφάσεων σε τομείς όπως η υγειονομική περίθαλψη, η χρηματοδότηση και η ποινική δικαιοσύνη. Βοηθά επίσης στην αποκάλυψη της βαθύτερης αιτίας της προκατάληψης, των παραισθήσεων και άλλων ανεπιθύμητων ή απρόβλεπτων συμπεριφορών.
Για παράδειγμα, μια πρόσφατη μελέτη από το Πανεπιστήμιο της Βόννης αποκάλυψε πώς τα νευρωνικά δίκτυα γραφημάτων (GNN) που χρησιμοποιούνται για την ανακάλυψη φαρμάκων βασίζονται σε μεγάλο βαθμό στην ανάκληση ομοιοτήτων από δεδομένα εκπαίδευσης και όχι στην πραγματική εκμάθηση σύνθετων νέων χημικών αλληλεπιδράσεων. Αυτό καθιστά δύσκολο να κατανοήσουμε πώς ακριβώς αυτά τα μοντέλα προσδιορίζουν νέες ενώσεις ενδιαφέροντος.
Πέρυσι, η κυβέρνηση του Ηνωμένου Βασιλείου διαπραγματεύτηκε με μεγάλους τεχνολογικούς γίγαντες όπως το OpenAI και η DeepMind, επιδιώκοντας πρόσβαση στις εσωτερικές διαδικασίες λήψης αποφάσεων των συστημάτων τεχνητής νοημοσύνης τους. Κανονισμοί όπως ο νόμος της ΕΕ για την τεχνητή νοημοσύνη θα πιέσουν τις εταιρείες τεχνητής νοημοσύνης να είναι πιο διαφανείς, αν και τα εμπορικά μυστικά φαίνεται ότι θα παραμείνουν σίγουρα κλειδωμένα.
Η έρευνα της Anthropic προσφέρει μια ματιά στο τι υπάρχει μέσα στο κουτί, “χαρτογραφώντας” τις πληροφορίες σε όλο το μοντέλο.
Ωστόσο, η αλήθεια είναι ότι αυτά τα μοντέλα είναι τόσο τεράστια που, σύμφωνα με την παραδοχή του ίδιου του Anthropic, “Πιστεύουμε ότι είναι πολύ πιθανό να μας λείπουν τάξεις μεγέθους και ότι αν θέλαμε να πάρουμε όλα τα χαρακτηριστικά – σε όλα τα στρώματα! – θα χρειαζόμασταν να χρησιμοποιήσουμε πολύ περισσότερους υπολογιστές από τον συνολικό υπολογισμό που απαιτείται για την εκπαίδευση των υποκείμενων μοντέλων”.
Αυτό είναι ένα ενδιαφέρον σημείο – η αντίστροφη μηχανική ενός μοντέλου είναι πιο πολύπλοκη υπολογιστικά από την αρχική μηχανική του μοντέλου.
Θυμίζει τα εξαιρετικά δαπανηρά προγράμματα νευροεπιστήμης όπως το Human Brain Project (HBP), το οποίο διέθεσε δισεκατομμύρια για τη χαρτογράφηση του ανθρώπινου εγκεφάλου μας, μόνο και μόνο για να αποτύχει τελικά.
Ποτέ μην υποτιμάτε πόσα πολλά κρύβονται μέσα στο μαύρο κουτί.
Σχετικά άρθρα
Meta και XGS Energy συνεργάζονται για γεωθερμικό έργο 150 MW
Μπορεί η τεχνητή νοημοσύνη να σώσει τη σχέση σου; Ίσως όχι
Νέα χρονολόγηση των χειρογράφων της νεκράς θάλασσας με το AI
Χρειάζεται το AI σώμα για να κατανοήσει τον κόσμο;
Εξατομικευμένος ήχος χωρίς ακουστικά
Elon Musk: Δικαστική παρέμβαση κατά της κερδοσκοπικής πορείας του OpenAI