Τι μπορούμε να περιμένουμε από τη σημερινή εκδήλωση του OpenAI – όλα όσα πρέπει να γνωρίζετε

Η OpenAI ενώνει τις δυνάμεις της Google, της Apple και της Microsoft σε μια εκδήλωση για την προώθηση ενός νέου προϊόντος και έχει μια δημοσιότητα παρόμοια με οτιδήποτε διοργανώνει ο κατασκευαστής του iPhone. Τι μπορούμε λοιπόν να περιμένουμε από την πρώτη κανονική εκδήλωση δημόσιας ανακοίνωσης της OpenAI; Πιθανότατα όχι αυτό που περιμένατε να δείτε, καθώς η εταιρεία αρχίζει να εστιάζει περισσότερο στο προϊόν παρά στο μοντέλο.

 

Οι φήμες έλεγαν ότι πρόκειται να δούμε κάποια μορφή νέας μηχανής αναζήτησης και ενδεχομένως GPT-5, αλλά τίποτα από αυτά δεν πρόκειται να συμβεί σύμφωνα με τον CEO Sam Altman. Ο ίδιος δήλωσε στο X ότι η ανακοίνωση είναι “όχι gpt-5, όχι μηχανή αναζήτησης, αλλά δουλεύουμε σκληρά πάνω σε κάποια νέα πράγματα που πιστεύουμε ότι θα αρέσουν στον κόσμο!

 

Η φημολογία στηρίζεται σε μεγάλο βαθμό στο γεγονός ότι πρόκειται να αποκτήσουμε μια φωνητική βοηθό, και αυτή δεν είναι μια φωνητική βοηθός όπως η Siri ή η Alexa, αυτή θα είναι πιο κοντά στη Samantha από την ταινία “Her” – μια αληθινή από άκρη σε άκρη συνομιλιακή τεχνητή νοημοσύνη.

 

Τι μπορούμε να περιμένουμε από την εκδήλωση του OpenAI;

 

Συμφωνώ με τη φημολογία ότι ένας φωνητικός βοηθός είναι η πιο πιθανή σημαντική ανακοίνωση στην εκδήλωση του OpenAI. Ωστόσο, η δημιουργία ενός πραγματικού φωνητικού βοηθού θα περιλαμβάνει κάποια σημαντικά αναβαθμισμένα μοντέλα, συμπεριλαμβανομένης της βελτιωμένης αναγνώρισης ομιλίας και της ανάλυσης φωνής. Αυτό πιθανότατα θα σημαίνει μια νέα έκδοση του ήδη ισχυρού μοντέλου μεταγραφής Whispering του OpenAI.

 

Ποια μορφή θα πάρει αυτός ο μαγικός φωνητικός βοηθός;

 

Στην ταινία “Her”, ο χαρακτήρας της Τεχνητής Νοημοσύνης Samantha έχει σχεδιαστεί για να προσαρμόζεται και να αναπτύσσεται μέσα από τις αλληλεπιδράσεις της με τους ανθρώπους. Με την πάροδο του χρόνου η Σαμάνθα αναπτύσσει αυτογνωσία, συναισθηματικό βάθος και την ικανότητα να δημιουργεί ουσιαστικές συνδέσεις.

 

Έχουμε δει υπονοούμενα ότι το OpenAI τείνει προς αυτή την κατεύθυνση. Το ChatGPT μπορεί πλέον να θυμάται τι πληκτρολογήσατε και να το χρησιμοποιεί σε μελλοντικές συνομιλίες, και αν έχετε ποτέ αλληλεπιδράσει με τον φωνητικό πράκτορα στην εφαρμογή ChatGPT, περιλαμβάνει παύσεις και επιρροές που μοιάζουν με ανθρώπινες, κάνοντάς τον να ακούγεται πιο συναισθηματικός.

 

Δεν νομίζω ούτε για ένα λεπτό ότι θα δούμε κάτι στην κλίμακα της Σαμάνθα. Αλλά, αν το OpenAI έχει δημιουργήσει μια βελτιωμένη από άκρη σε άκρη φωνητική AI, ικανή να ενεργεί για λογαριασμό σας και να ενσωματώνεται σε άλλες συσκευές. Η μεγαλύτερη αλλαγή θα είναι η μετάβαση στην ομιλία σε ομιλία. Επί του παρόντος το ChatGPT Voice μετατρέπει την ομιλία σας σε κείμενο και στη συνέχεια παίρνει αυτό το κείμενο, το στέλνει στο μοντέλο AI, παίρνει πίσω το κείμενο και το μετατρέπει σε ομιλία. Αυτό δημιουργεί μια καθυστέρηση που δεν λειτουργεί καλά για συζήτηση.

 

Σε αντίθεση με τη Siri ή ακόμα και τους Gemini, όπου αλληλεπιδράτε κάνοντας μια ερώτηση και περιμένετε, ελπίζοντας ότι έχει εκπαιδευτεί ή προγραμματιστεί να έχει την απάντηση, με μια νέα πραγματική φωνητική βοηθό θα έχετε απλά μια φυσική, ανθρώπινη συζήτηση.

 

Τι γίνεται με τους πράκτορες;

 

Οι πράκτορες είναι η επόμενη μεγάλη τάση στην τεχνητή νοημοσύνη. Πρόκειται για μίνι μοντέλα τεχνητής νοημοσύνης που ελέγχονται από το κύριο μοντέλο όπως το GPT-4, αλλά είναι ικανά να διεκπεραιώνουν μόνοι τους εργασίες.

 

Για παράδειγμα, θα μπορούσατε να πείτε στο ChatGPT “έχει γενέθλια η γυναίκα μου και το ξέχασα” και αυτό θα μπορούσε να ξεκινήσει, να βρει ένα δώρο από όσα έχετε πει γι’ αυτήν στο παρελθόν, να παραγγείλει το δώρο και να κανονίσει την παράδοση μαζί με την αποστολή μηνυμάτων στη γυναίκα σας.

 

Ένα παράδειγμα αυτών των “σμηνών” πρακτόρων μπορείτε να δείτε στην πλατφόρμα ανάπτυξης τεχνητής νοημοσύνης Devin, όπου του λέτε τι να φτιάξει και αυτό ξεκινά και εκτελεί όλες τις ενέργειες που χρειάζεται για να επιτύχει τον στόχο, από την περιήγηση στο διαδίκτυο μέχρι τη λήψη εικόνων.

 

Τι άλλο θα μπορούσαμε να δούμε;

 

Μπορεί να δούμε περισσότερα βίντεο με το Sora και μια ένδειξη για το πότε θα είναι διαθέσιμο στο κοινό. Μπορεί επίσης να πάρουμε μια πρώτη ιδέα για το πόσο καλά λειτουργεί η εναλλακτική λύση της Voice Engine ElevenLabs. Η έμφαση θα δοθεί στα προϊόντα και όχι στα υποκείμενα μοντέλα. Μπαίνουμε στην εμπορική εποχή της τεχνητής νοημοσύνης, όπου αυτά τα εντυπωσιακά μοντέλα πρέπει να κερδίσουν τα προς το ζην.

 

Αυτό δεν σημαίνει ότι δεν θα δούμε νέα μοντέλα. Ο Altman έχει ήδη πει ότι το GPT-5 θα είναι μια σημαντική βελτίωση του GPT-4 και ότι θα σπάσει την τράπεζα για να αναπτύξει μια υπερ-ευφυή AI.