Οι ερευνητές της Google DeepMind ανέπτυξαν το NATURAL PLAN, ένα μέτρο σύγκρισης για την αξιολόγηση της ικανότητας των LLMs να σχεδιάζουν εργασίες πραγματικού κόσμου με βάση προτροπές φυσικής γλώσσας.
Η επόμενη εξέλιξη της τεχνητής νοημοσύνης είναι να αφήσει τα όρια μιας πλατφόρμας συνομιλίας και να αναλάβει ρόλους πράκτορα για να ολοκληρώσει εργασίες σε διάφορες πλατφόρμες για λογαριασμό μας. Αλλά αυτό είναι πιο δύσκολο από ό,τι ακούγεται.
Εργασίες προγραμματισμού, όπως ο προγραμματισμός μιας συνάντησης ή η σύνταξη ενός προγράμματος διακοπών, μπορεί να φαίνονται απλές για εμάς. Οι άνθρωποι είναι καλοί στο να συλλογίζονται μέσα από πολλαπλά βήματα και να προβλέπουν αν μια πορεία δράσης θα επιτύχει τον επιθυμητό στόχο ή όχι.
Εσείς μπορεί να το βρίσκετε αυτό εύκολο, αλλά ακόμη και τα καλύτερα μοντέλα τεχνητής νοημοσύνης δυσκολεύονται με τον προγραμματισμό. Θα μπορούσαμε να τα συγκρίνουμε για να δούμε ποιο LLM είναι καλύτερο στον προγραμματισμό;
Η συγκριτική αξιολόγηση NATURAL PLAN δοκιμάζει τα LLM σε 3 εργασίες σχεδιασμού:
- Σχεδιασμός ταξιδιού – Σχεδιασμός ενός δρομολογίου ταξιδιού υπό περιορισμούς πτήσης και προορισμού
- Προγραμματισμός συναντήσεων – Προγραμματισμός συναντήσεων με πολλούς φίλους σε διαφορετικές τοποθεσίες
- Προγραμματισμός ημερολογίου – Προγραμματισμός συναντήσεων εργασίας μεταξύ πολλών ατόμων με βάση τα υπάρχοντα χρονοδιαγράμματα και διάφορους περιορισμούς
Το πείραμα ξεκίνησε με προτροπές λίγων βολών, όπου τα μοντέλα έλαβαν 5 παραδείγματα προτροπών και τις αντίστοιχες σωστές απαντήσεις. Στη συνέχεια τους ζητήθηκαν προτροπές προγραμματισμού διαφορετικής δυσκολίας.
Ακολουθεί ένα παράδειγμα προτροπής και λύσης που δόθηκε ως παράδειγμα στα μοντέλα:

Αποτελέσματα
Οι ερευνητές δοκίμασαν τις GPT-3.5, GPT-4, GPT-4o, Gemini 1.5 Flash και Gemini 1.5 Pro, καμία από τις οποίες δεν είχε πολύ καλές επιδόσεις σε αυτές τις δοκιμές.
Τα αποτελέσματα πρέπει να έκαναν καλή εντύπωση στα γραφεία της DeepMind, καθώς το Gemini 1.5 Pro βγήκε πρώτο.

Όπως ήταν αναμενόμενο, τα αποτελέσματα χειροτέρεψαν εκθετικά με τις πιο σύνθετες προτροπές όπου ο αριθμός των ανθρώπων ή των πόλεων αυξανόταν. Για παράδειγμα, δείτε πόσο γρήγορα η ακρίβεια μειώθηκε καθώς προστέθηκαν περισσότερα άτομα στο τεστ προγραμματισμού συναντήσεων.

Θα μπορούσε η προτροπή πολλαπλών βολών να οδηγήσει σε βελτίωση της ακρίβειας; Τα αποτελέσματα της έρευνας δείχνουν ότι μπορεί, αλλά μόνο αν το μοντέλο έχει ένα αρκετά μεγάλο παράθυρο πλαισίου.
Το μεγαλύτερο παράθυρο πλαισίου του Gemini 1.5 Pro του επιτρέπει να αξιοποιεί περισσότερα παραδείγματα εντός πλαισίου σε σχέση με τα μοντέλα GPT.
Οι ερευνητές διαπίστωσαν ότι στον προγραμματισμό ταξιδιών, η αύξηση του αριθμού των λήψεων από 1 σε 800 βελτιώνει την ακρίβεια του Gemini Pro 1.5 από 2,7% σε 39,9%.
Στην εργασία σημειώνεται: «Αυτά τα αποτελέσματα δείχνουν την υπόσχεση του σχεδιασμού εντός πλαισίου, όπου οι δυνατότητες μεγάλου πλαισίου επιτρέπουν στα LLM να αξιοποιήσουν περαιτέρω πλαίσιο για τη βελτίωση του σχεδιασμού».
Ένα περίεργο αποτέλεσμα ήταν ότι το GPT-4o ήταν πραγματικά κακό στον προγραμματισμό ταξιδιών. Οι ερευνητές διαπίστωσαν ότι δυσκολευόταν «να κατανοήσει και να σεβαστεί τους περιορισμούς συνδεσιμότητας πτήσεων και ημερομηνίας ταξιδιού».
Ένα άλλο παράξενο αποτέλεσμα ήταν ότι η αυτοδιόρθωση οδήγησε σε σημαντική πτώση της απόδοσης του μοντέλου σε όλα τα μοντέλα. Όταν τα μοντέλα καλούνταν να ελέγξουν την εργασία τους και να κάνουν διορθώσεις, έκαναν περισσότερα λάθη.
Είναι ενδιαφέρον ότι τα ισχυρότερα μοντέλα, όπως το GPT-4 και το Gemini 1.5 Pro, υπέστησαν μεγαλύτερες απώλειες από το GPT-3.5 όταν αυτοδιορθώθηκαν.
Η τεχνητή νοημοσύνη των πρακτόρων είναι μια συναρπαστική προοπτική και ήδη βλέπουμε κάποιες πρακτικές περιπτώσεις χρήσης στους πράκτορες του Microsoft Copilot.
Όμως τα αποτελέσματα των δοκιμών αναφοράς NATURAL PLAN δείχνουν ότι έχουμε ακόμα δρόμο μπροστά μας μέχρι να μπορέσει η τεχνητή νοημοσύνη να χειριστεί πιο σύνθετους σχεδιασμούς.
Οι ερευνητές της DeepMind κατέληξαν στο συμπέρασμα ότι «το NATURAL PLAN είναι πολύ δύσκολο να επιλυθεί από τα σύγχρονα μοντέλα».
Φαίνεται ότι η τεχνητή νοημοσύνη δεν θα αντικαταστήσει ακόμα τους ταξιδιωτικούς πράκτορες και τους προσωπικούς βοηθούς.



Latest News
Όλες οι anime σειρές & ταινίες που έρχονται τον Ιανουάριο του 202615 Δεκεμβρίου 2025 13:56
Pluribus: Αναδείχθηκε στη σειρά με τις περισσότερες προβολές στην ιστορία της Apple15 Δεκεμβρίου 2025 12:26
Η πρωθυπουργός της Ιαπωνίας παραθέτει φράση από το Attack on Titan3 Δεκεμβρίου 2025 17:31
Η Sony κυκλοφορεί νέο trailer για το 28 Years Later: The Bone Temple3 Δεκεμβρίου 2025 16:46
Η Marvel δείχνει το cast του Avengers: Doomsday σε επίσημο event3 Δεκεμβρίου 2025 16:23
The Boys: Ο Karl Urban προειδοποιεί για μεγάλους θανάτους από το 1o επεισόδιο της 5ης σεζόν3 Δεκεμβρίου 2025 15:35
Stranger Things 5: 59,6 εκατ. θεάσεις σε μόλις 5 μέρες3 Δεκεμβρίου 2025 14:53
Κυκλοφόρησε νέα αφίσα για το A Knight of the Seven Kingdoms3 Δεκεμβρίου 2025 14:33
O Tarantino σοκάρει με τα σχόλιά του: Στο στόχαστρο ο Paul Dano3 Δεκεμβρίου 2025 14:13
Η στοιχειωμένη σήραγγα Kiyotaki του όρους Matsuo2 Δεκεμβρίου 2025 20:28
Fire Force: Kυκλοφόρησε νέο trailer της 3ης σεζόν για το part 22 Δεκεμβρίου 2025 19:16
Return to Silent Hill: Δείτε το διεθνές trailer2 Δεκεμβρίου 2025 17:53
Τα πέντε anime με επεισόδια που άγγιξαν 9.9 στο IMDb2 Δεκεμβρίου 2025 16:57
Vanderhorstia supersaiyan: Το ψάρι που μοιάζει να βγήκε από το Dragon Ball Z2 Δεκεμβρίου 2025 15:54
Το Helldivers γίνεται ταινία από τον σκηνοθέτη του Fast & Furious2 Δεκεμβρίου 2025 15:26
Πρώτες αντιδράσεις για το Avatar: Fire and Ash: Το καλύτερο μέχρι σήμερα;2 Δεκεμβρίου 2025 14:23
Gotham Awards 2025: Guillermo del Toro κατακεραυνώνει το AI2 Δεκεμβρίου 2025 13:43
Samsung Galaxy Z TriFold: Ανακοίνωσε το τριπλά αναδιπλούμενο smartphone2 Δεκεμβρίου 2025 13:04
Το Netflix διεκδικεί την Warner Bros με τεράστια χρηματική προσφορά2 Δεκεμβρίου 2025 12:26
Η live-action σειρά God of War επιταχύνει την παραγωγή της2 Δεκεμβρίου 2025 11:50