Η OpenAI μόλις παρουσίασε τη νέα ναυαρχίδα του θεμελιώδους μοντέλου της, το GPT-4o, με απίστευτες ικανότητες αναγνώρισης ομιλίας και μετάφρασης. Όπως δήλωσε ο ίδιος ο CEO Sam Altman, γνωρίζαμε ότι η τελευταία “ανοιξιάτικη ενημέρωση” της OpenAI δεν είχε σχέση με το GPT-5 ή την αναζήτηση AI.
Αλλά στις 10 π.μ. PT σήμερα, εκατοντάδες χιλιάδες συμμετείχαν στη live-streaming παρουσίαση του νέου μοντέλου, καθώς η Διευθύνουσα Σύμβουλος Τεχνολογίας (CTO) Mira Murati παρουσίασε τα πλεονεκτήματά του σε σχέση με τον προκάτοχό του, το GPT-4.
Οι βασικές ανακοινώσεις από τη συνεδρία επίδειξης περιλαμβάνουν:
- Το GPT-4o σκοπεύει να αντικαταστήσει το GPT-4, με την OpenAI να το αποκαλεί ως τη νέα ναυαρχίδα του θεμελιώδους μοντέλου της.
- Ενώ είναι σε γενικές γραμμές παρόμοιο με το GPT-4, το GPT-4o προσφέρει ανώτερη πολυγλωσσική και οπτικοακουστική επεξεργασία. Μπορεί να επεξεργάζεται και να μεταφράζει ήχο σε σχεδόν πραγματικό χρόνο.
- Το OpenAI διαθέτει το GPT-4o ελεύθερα, με περιορισμούς. Οι επαγγελματίες χρήστες εξακολουθούν να έχουν προτεραιότητα και υψηλότερο ανώτατο όριο μηνυμάτων.
- Η OpenAI κυκλοφορεί επίσης μια desktop έκδοση του ChatGPT, αρχικά μόνο για Mac, η οποία κυκλοφορεί άμεσα.
- Οι προσαρμοσμένες GPT θα γίνουν προσβάσιμες και στους δωρεάν χρήστες.
- Το GPT-4o και τα φωνητικά χαρακτηριστικά του θα κυκλοφορήσουν σιγά-σιγά τις επόμενες εβδομάδες και μήνες.
Μετάφραση ήχου σε πραγματικό χρόνο του GPT-4o
Ο τίτλος που έχει κάνει τους πάντες να μιλούν είναι η εντυπωσιακή επεξεργασία και μετάφραση ήχου του GPT-4o, η οποία λειτουργεί σχεδόν σε πραγματικό χρόνο. Οι επιδείξεις έδειξαν ότι η τεχνητή νοημοσύνη συμμετείχε σε εντυπωσιακά φυσικές φωνητικές συνομιλίες, προσφέροντας άμεσες μεταφράσεις, αφηγούμενη ιστορίες και παρέχοντας συμβουλές κωδικοποίησης.
Μπορεί επίσης να αναγνωρίζει συναισθήματα μέσω της αναπνοής, των εκφράσεων και άλλων οπτικών ενδείξεων.
Οι ικανότητες αναγνώρισης συναισθημάτων του GPT-4o θα προκαλέσουν πιθανώς αντιδράσεις μόλις καταλαγιάσει η σκόνη. Η ΤΝ με συναισθηματική αντίληψη μπορεί να εξελίξει δυνητικά κακόβουλες περιπτώσεις χρήσης που βασίζονται στην ανθρώπινη μίμηση, όπως η βαθιά πλαστογράφηση, η κοινωνική μηχανική κ.λπ.
Μια άλλη εντυπωσιακή δεξιότητα που επιδείχθηκε από την ομάδα είναι η βοήθεια κωδικοποίησης σε πραγματικό χρόνο που παρέχεται μέσω φωνής.
Σε ένα demo είδαμε ακόμη και δύο περιπτώσεις του μοντέλου να τραγουδούν η μία στην άλλη.
Η γενική ουσία των επιδείξεων της OpenAI είναι ότι η εταιρεία στοχεύει να καταστήσει την πολυτροπικότητα της τεχνητής νοημοσύνης πραγματικά χρήσιμη σε καθημερινά σενάρια, προκαλώντας εργαλεία όπως το Google Translate στη διαδικασία. Ένα άλλο βασικό σημείο είναι ότι αυτές οι επιδείξεις είναι αληθινές. Η OpenAI επεσήμανε: “Όλα τα βίντεο σε αυτή τη σελίδα είναι σε 1x πραγματικό χρόνο”, υπονοώντας πιθανώς την Google, η οποία επεξεργάστηκε σε μεγάλο βαθμό το βίντεο επίδειξης του Gemini για να υπερβάλει στις πολυτροπικές ικανότητές του.
Εκτός από την επεξεργασία φωνής και τη μετάφραση σε πραγματικό χρόνο, που απορροφά τα φώτα της δημοσιότητας, το γεγονός ότι το OpenAI καθιστά αυτό το νέο μοντέλο ελεύθερο από περιορισμούς είναι τεράστιο. Ενώ το GPT-4o είναι μόνο ένα ελαφρώς καλύτερο GPT-4, θα εξοπλίσει οποιονδήποτε με ένα κορυφαίας ποιότητας μοντέλο AI, εξισώνοντας τους όρους ανταγωνισμού για εκατομμύρια ανθρώπους παγκοσμίως.
Μπορείτε να παρακολουθήσετε την ανακοίνωση και το demo παρακάτω:
Όλα όσα γνωρίζουμε για το GPT-4o
Εδώ είναι μια σύνοψη όλων όσων γνωρίζουμε για το GPT-4o μέχρι στιγμής:
- Πολυτροπική ενσωμάτωση: Το GPT-4o επεξεργάζεται και παράγει γρήγορα δεδομένα κειμένου, ήχου και εικόνας, επιτρέποντας δυναμικές αλληλεπιδράσεις σε διαφορετικές μορφές.
- Απαντήσεις σε πραγματικό χρόνο: Το μοντέλο διαθέτει εντυπωσιακούς χρόνους απόκρισης, συγκρίσιμους με τις ταχύτητες αντίδρασης του ανθρώπου σε συνομιλία, με τις ηχητικές απαντήσεις να ξεκινούν σε μόλις 232 χιλιοστά του δευτερολέπτου.
- Δυνατότητες γλώσσας και κωδικοποίησης: Το GPT-4o αντιστοιχεί στις επιδόσεις του GPT-4 Turbo σε εργασίες αγγλικής γλώσσας και κωδικοποίησης και το ξεπερνά στην επεξεργασία μη αγγλικού κειμένου.
- Βελτιώσεις στον οπτικοακουστικό τομέα: Σε σύγκριση με τα προηγούμενα μοντέλα, ο GPT-4o παρουσιάζει ανώτερη κατανόηση των εργασιών όρασης και ήχου, βελτιώνοντας την ικανότητά του να αλληλεπιδρά με περιεχόμενο πολυμέσων.
- Φυσικές αλληλεπιδράσεις: Οι επιδείξεις περιελάμβαναν δύο GPT-4o που συμμετείχαν σε ένα τραγούδι, βοηθώντας στην προετοιμασία συνεντεύξεων, παίζοντας παιχνίδια όπως το ψαλίδι πέτρα-ψαλίδι χαρτί, και ακόμη και δημιουργώντας χιούμορ με τα αστεία του μπαμπά.
- Μειωμένο κόστος για τους προγραμματιστές: Το OpenAI μείωσε το κόστος για τους προγραμματιστές που χρησιμοποιούν το GPT-4o κατά 50% και διπλασίασε την ταχύτητα επεξεργασίας του.
- Απόδοση συγκριτικών επιδόσεων: Τα benchmarks του GPT-4o υπερέχουν σε πολύγλωσσες, ηχητικές και οπτικές εργασίες.
Το GPT-4o είναι μια σημαντική ανακοίνωση για το OpenAI, ιδιαίτερα καθώς θα είναι το πιο ισχυρό ελεύθερο μοντέλο με σημαντική διαφορά. Μπορεί να σηματοδοτήσει μια εποχή πρακτικής, χρήσιμης πολυτροπικότητας της τεχνητής νοημοσύνης με την οποία οι άνθρωποι θα αρχίσουν να ασχολούνται μαζικά. Αυτό θα ήταν ένα τεράστιο ορόσημο τόσο για την εταιρεία όσο και για τον κλάδο της δημιουργικής τεχνητής νοημοσύνης στο σύνολό του.
Σχετικά άρθρα
Το πραξικόπημα στην OpenAI γίνεται ταινία
Elon Musk: Δικαστική παρέμβαση κατά της κερδοσκοπικής πορείας του OpenAI
Η Microsoft υποχωρεί αιφνιδιαστικά από τη θέση της στο διοικητικό συμβούλιο του OpenAI
Ο CEO της OpenAI θέλει να καταστήσει την εταιρεία κερδοφόρα.
Η Apple φέρεται να μην πληρώνει το OpenAI για τη χρήση του ChatGPT στο iOS 18
Το διοικητικό συμβούλιο του OpenAI συγκροτεί επιτροπή ασφάλειας και προστασίας