Οι ερευνητές της Google DeepMind ανέπτυξαν το NATURAL PLAN, ένα μέτρο σύγκρισης για την αξιολόγηση της ικανότητας των LLMs να σχεδιάζουν εργασίες πραγματικού κόσμου με βάση προτροπές φυσικής γλώσσας.
Η επόμενη εξέλιξη της τεχνητής νοημοσύνης είναι να αφήσει τα όρια μιας πλατφόρμας συνομιλίας και να αναλάβει ρόλους πράκτορα για να ολοκληρώσει εργασίες σε διάφορες πλατφόρμες για λογαριασμό μας. Αλλά αυτό είναι πιο δύσκολο από ό,τι ακούγεται.
Εργασίες προγραμματισμού, όπως ο προγραμματισμός μιας συνάντησης ή η σύνταξη ενός προγράμματος διακοπών, μπορεί να φαίνονται απλές για εμάς. Οι άνθρωποι είναι καλοί στο να συλλογίζονται μέσα από πολλαπλά βήματα και να προβλέπουν αν μια πορεία δράσης θα επιτύχει τον επιθυμητό στόχο ή όχι.
Εσείς μπορεί να το βρίσκετε αυτό εύκολο, αλλά ακόμη και τα καλύτερα μοντέλα τεχνητής νοημοσύνης δυσκολεύονται με τον προγραμματισμό. Θα μπορούσαμε να τα συγκρίνουμε για να δούμε ποιο LLM είναι καλύτερο στον προγραμματισμό;
Η συγκριτική αξιολόγηση NATURAL PLAN δοκιμάζει τα LLM σε 3 εργασίες σχεδιασμού:
- Σχεδιασμός ταξιδιού – Σχεδιασμός ενός δρομολογίου ταξιδιού υπό περιορισμούς πτήσης και προορισμού
- Προγραμματισμός συναντήσεων – Προγραμματισμός συναντήσεων με πολλούς φίλους σε διαφορετικές τοποθεσίες
- Προγραμματισμός ημερολογίου – Προγραμματισμός συναντήσεων εργασίας μεταξύ πολλών ατόμων με βάση τα υπάρχοντα χρονοδιαγράμματα και διάφορους περιορισμούς
Το πείραμα ξεκίνησε με προτροπές λίγων βολών, όπου τα μοντέλα έλαβαν 5 παραδείγματα προτροπών και τις αντίστοιχες σωστές απαντήσεις. Στη συνέχεια τους ζητήθηκαν προτροπές προγραμματισμού διαφορετικής δυσκολίας.
Ακολουθεί ένα παράδειγμα προτροπής και λύσης που δόθηκε ως παράδειγμα στα μοντέλα:

Αποτελέσματα
Οι ερευνητές δοκίμασαν τις GPT-3.5, GPT-4, GPT-4o, Gemini 1.5 Flash και Gemini 1.5 Pro, καμία από τις οποίες δεν είχε πολύ καλές επιδόσεις σε αυτές τις δοκιμές.
Τα αποτελέσματα πρέπει να έκαναν καλή εντύπωση στα γραφεία της DeepMind, καθώς το Gemini 1.5 Pro βγήκε πρώτο.

Όπως ήταν αναμενόμενο, τα αποτελέσματα χειροτέρεψαν εκθετικά με τις πιο σύνθετες προτροπές όπου ο αριθμός των ανθρώπων ή των πόλεων αυξανόταν. Για παράδειγμα, δείτε πόσο γρήγορα η ακρίβεια μειώθηκε καθώς προστέθηκαν περισσότερα άτομα στο τεστ προγραμματισμού συναντήσεων.

Θα μπορούσε η προτροπή πολλαπλών βολών να οδηγήσει σε βελτίωση της ακρίβειας; Τα αποτελέσματα της έρευνας δείχνουν ότι μπορεί, αλλά μόνο αν το μοντέλο έχει ένα αρκετά μεγάλο παράθυρο πλαισίου.
Το μεγαλύτερο παράθυρο πλαισίου του Gemini 1.5 Pro του επιτρέπει να αξιοποιεί περισσότερα παραδείγματα εντός πλαισίου σε σχέση με τα μοντέλα GPT.
Οι ερευνητές διαπίστωσαν ότι στον προγραμματισμό ταξιδιών, η αύξηση του αριθμού των λήψεων από 1 σε 800 βελτιώνει την ακρίβεια του Gemini Pro 1.5 από 2,7% σε 39,9%.
Στην εργασία σημειώνεται: «Αυτά τα αποτελέσματα δείχνουν την υπόσχεση του σχεδιασμού εντός πλαισίου, όπου οι δυνατότητες μεγάλου πλαισίου επιτρέπουν στα LLM να αξιοποιήσουν περαιτέρω πλαίσιο για τη βελτίωση του σχεδιασμού».
Ένα περίεργο αποτέλεσμα ήταν ότι το GPT-4o ήταν πραγματικά κακό στον προγραμματισμό ταξιδιών. Οι ερευνητές διαπίστωσαν ότι δυσκολευόταν «να κατανοήσει και να σεβαστεί τους περιορισμούς συνδεσιμότητας πτήσεων και ημερομηνίας ταξιδιού».
Ένα άλλο παράξενο αποτέλεσμα ήταν ότι η αυτοδιόρθωση οδήγησε σε σημαντική πτώση της απόδοσης του μοντέλου σε όλα τα μοντέλα. Όταν τα μοντέλα καλούνταν να ελέγξουν την εργασία τους και να κάνουν διορθώσεις, έκαναν περισσότερα λάθη.
Είναι ενδιαφέρον ότι τα ισχυρότερα μοντέλα, όπως το GPT-4 και το Gemini 1.5 Pro, υπέστησαν μεγαλύτερες απώλειες από το GPT-3.5 όταν αυτοδιορθώθηκαν.
Η τεχνητή νοημοσύνη των πρακτόρων είναι μια συναρπαστική προοπτική και ήδη βλέπουμε κάποιες πρακτικές περιπτώσεις χρήσης στους πράκτορες του Microsoft Copilot.
Όμως τα αποτελέσματα των δοκιμών αναφοράς NATURAL PLAN δείχνουν ότι έχουμε ακόμα δρόμο μπροστά μας μέχρι να μπορέσει η τεχνητή νοημοσύνη να χειριστεί πιο σύνθετους σχεδιασμούς.
Οι ερευνητές της DeepMind κατέληξαν στο συμπέρασμα ότι «το NATURAL PLAN είναι πολύ δύσκολο να επιλυθεί από τα σύγχρονα μοντέλα».
Φαίνεται ότι η τεχνητή νοημοσύνη δεν θα αντικαταστήσει ακόμα τους ταξιδιωτικούς πράκτορες και τους προσωπικούς βοηθούς.







Latest News
Bridgerton: Κυκλοφόρησε το επίσημο teaser για το part 2 της 4ης σεζόν
Xbox Game Pass Φεβρουάριος 2026: Όλα τα νέα παιχνίδια
Ο Elon Musk ενώνει SpaceX και xAI δημιουργώντας τεχνολογικό κολοσσό
O Christopher Nolan εκφράζει σοβαρές ανησυχίες για την συγχώνευση Netflix και Warner Bros.
H A24 αποκαλύπτει το επίσημο trailer για το The Drama με τους Zendaya και Robert Pattinson
Moltbook: Το Reddit που μιλούν μόνο οι AI agents!
Μια νύχτα με τη Μαίρη, Βασίλισσα της Σκωτίας, στο Talbot Hotel!
Η 3η σεζόν του The Last of Us μπορεί να είναι η τελευταία
Το Switch γίνεται η πιο επιτυχημένη κονσόλα της εταιρείας
Grammy 2026: Όλοι οι νικητές της μεγάλης βραδιάς!
Τι αποκάλυψε κατά λάθος ο Ian McKellen για το Avengers: Doomsday;
Δείτε το short film του Resident Evil Requiem πριν την κυκλοφορία!
Διέρρευσε επίσημο προωθητικό poster για το Galaxy S26 Ultra
One Piece Live-Action: Οι Straw Hats επιστρέφουν με νέα posters
Το νέο anime της δημιουργού του Fullmetal Alchemist έρχεται τον Απρίλιο
Stranger Things: Tales From ’85: Το πρώτο animated spin-off έρχεται τον Απρίλιο στο Netflix
Κυκλοφόρησε το επίσημο trailer του Michael
The Devil Wears Prada 2: Κυκλοφόρησε το πρώτο επίσημο trailer!
Lookism: Γιατί όσοι το αφήνουν νωρίς κάνουν λάθος;
Τι αποκαλύπτουν οι διαρροές για την ημερομηνία του Galaxy Unpacked 2026