Συγκριτική αξιολόγηση των LLMs στον προγραμματισμό εργασιών

Οι ερευνητές της Google DeepMind ανέπτυξαν το NATURAL PLAN, ένα μέτρο σύγκρισης για την αξιολόγηση της ικανότητας των LLMs να σχεδιάζουν εργασίες πραγματικού κόσμου με βάση προτροπές φυσικής γλώσσας.

Η επόμενη εξέλιξη της τεχνητής νοημοσύνης είναι να αφήσει τα όρια μιας πλατφόρμας συνομιλίας και να αναλάβει ρόλους πράκτορα για να ολοκληρώσει εργασίες σε διάφορες πλατφόρμες για λογαριασμό μας. Αλλά αυτό είναι πιο δύσκολο από ό,τι ακούγεται.

Εργασίες προγραμματισμού, όπως ο προγραμματισμός μιας συνάντησης ή η σύνταξη ενός προγράμματος διακοπών, μπορεί να φαίνονται απλές για εμάς. Οι άνθρωποι είναι καλοί στο να συλλογίζονται μέσα από πολλαπλά βήματα και να προβλέπουν αν μια πορεία δράσης θα επιτύχει τον επιθυμητό στόχο ή όχι.

Εσείς μπορεί να το βρίσκετε αυτό εύκολο, αλλά ακόμη και τα καλύτερα μοντέλα τεχνητής νοημοσύνης δυσκολεύονται με τον προγραμματισμό. Θα μπορούσαμε να τα συγκρίνουμε για να δούμε ποιο LLM είναι καλύτερο στον προγραμματισμό;

Η συγκριτική αξιολόγηση NATURAL PLAN δοκιμάζει τα LLM σε 3 εργασίες σχεδιασμού:

  • Σχεδιασμός ταξιδιού – Σχεδιασμός ενός δρομολογίου ταξιδιού υπό περιορισμούς πτήσης και προορισμού
  • Προγραμματισμός συναντήσεων – Προγραμματισμός συναντήσεων με πολλούς φίλους σε διαφορετικές τοποθεσίες
  • Προγραμματισμός ημερολογίου – Προγραμματισμός συναντήσεων εργασίας μεταξύ πολλών ατόμων με βάση τα υπάρχοντα χρονοδιαγράμματα και διάφορους περιορισμούς

Το πείραμα ξεκίνησε με προτροπές λίγων βολών, όπου τα μοντέλα έλαβαν 5 παραδείγματα προτροπών και τις αντίστοιχες σωστές απαντήσεις. Στη συνέχεια τους ζητήθηκαν προτροπές προγραμματισμού διαφορετικής δυσκολίας.

Ακολουθεί ένα παράδειγμα προτροπής και λύσης που δόθηκε ως παράδειγμα στα μοντέλα:

Αποτελέσματα

Οι ερευνητές δοκίμασαν τις GPT-3.5, GPT-4, GPT-4o, Gemini 1.5 Flash και Gemini 1.5 Pro, καμία από τις οποίες δεν είχε πολύ καλές επιδόσεις σε αυτές τις δοκιμές.

Τα αποτελέσματα πρέπει να έκαναν καλή εντύπωση στα γραφεία της DeepMind, καθώς το Gemini 1.5 Pro βγήκε πρώτο.

Όπως ήταν αναμενόμενο, τα αποτελέσματα χειροτέρεψαν εκθετικά με τις πιο σύνθετες προτροπές όπου ο αριθμός των ανθρώπων ή των πόλεων αυξανόταν. Για παράδειγμα, δείτε πόσο γρήγορα η ακρίβεια μειώθηκε καθώς προστέθηκαν περισσότερα άτομα στο τεστ προγραμματισμού συναντήσεων.

Θα μπορούσε η προτροπή πολλαπλών βολών να οδηγήσει σε βελτίωση της ακρίβειας; Τα αποτελέσματα της έρευνας δείχνουν ότι μπορεί, αλλά μόνο αν το μοντέλο έχει ένα αρκετά μεγάλο παράθυρο πλαισίου.

Το μεγαλύτερο παράθυρο πλαισίου του Gemini 1.5 Pro του επιτρέπει να αξιοποιεί περισσότερα παραδείγματα εντός πλαισίου σε σχέση με τα μοντέλα GPT.

Οι ερευνητές διαπίστωσαν ότι στον προγραμματισμό ταξιδιών, η αύξηση του αριθμού των λήψεων από 1 σε 800 βελτιώνει την ακρίβεια του Gemini Pro 1.5 από 2,7% σε 39,9%.

Στην εργασία σημειώνεται: «Αυτά τα αποτελέσματα δείχνουν την υπόσχεση του σχεδιασμού εντός πλαισίου, όπου οι δυνατότητες μεγάλου πλαισίου επιτρέπουν στα LLM να αξιοποιήσουν περαιτέρω πλαίσιο για τη βελτίωση του σχεδιασμού».

Ένα περίεργο αποτέλεσμα ήταν ότι το GPT-4o ήταν πραγματικά κακό στον προγραμματισμό ταξιδιών. Οι ερευνητές διαπίστωσαν ότι δυσκολευόταν «να κατανοήσει και να σεβαστεί τους περιορισμούς συνδεσιμότητας πτήσεων και ημερομηνίας ταξιδιού».

Ένα άλλο παράξενο αποτέλεσμα ήταν ότι η αυτοδιόρθωση οδήγησε σε σημαντική πτώση της απόδοσης του μοντέλου σε όλα τα μοντέλα. Όταν τα μοντέλα καλούνταν να ελέγξουν την εργασία τους και να κάνουν διορθώσεις, έκαναν περισσότερα λάθη.

Είναι ενδιαφέρον ότι τα ισχυρότερα μοντέλα, όπως το GPT-4 και το Gemini 1.5 Pro, υπέστησαν μεγαλύτερες απώλειες από το GPT-3.5 όταν αυτοδιορθώθηκαν.

Η τεχνητή νοημοσύνη των πρακτόρων είναι μια συναρπαστική προοπτική και ήδη βλέπουμε κάποιες πρακτικές περιπτώσεις χρήσης στους πράκτορες του Microsoft Copilot.

Όμως τα αποτελέσματα των δοκιμών αναφοράς NATURAL PLAN δείχνουν ότι έχουμε ακόμα δρόμο μπροστά μας μέχρι να μπορέσει η τεχνητή νοημοσύνη να χειριστεί πιο σύνθετους σχεδιασμούς.

Οι ερευνητές της DeepMind κατέληξαν στο συμπέρασμα ότι «το NATURAL PLAN είναι πολύ δύσκολο να επιλυθεί από τα σύγχρονα μοντέλα».

Φαίνεται ότι η τεχνητή νοημοσύνη δεν θα αντικαταστήσει ακόμα τους ταξιδιωτικούς πράκτορες και τους προσωπικούς βοηθούς.