Η νέα AI της Microsoft με πανομοιότυπη ομιλία με τον άνθρωπο

Η Microsoft ανέπτυξε μια νέα επανάληψη του γλωσσικού μοντέλου νευρωνικού κωδικοποιητή της, Vall-E, που ξεπερνά τις προηγούμενες προσπάθειες όσον αφορά τη φυσικότητα, την ανθεκτικότητα της ομιλίας και την ομοιότητα των ομιλητών.

 

Είναι το πρώτο του είδους του που φτάνει την ανθρώπινη ισοτιμία σε ένα ζευγάρι δημοφιλών συγκριτικών δοκιμών και είναι προφανώς τόσο αληθοφανές που η Microsoft δεν σκοπεύει να δώσει πρόσβαση στο κοινό.

Αξιοποιώντας τις βάσεις του Vall-E, το νέο εργαλείο φωνής AI ενσωματώνει δύο σημαντικές βελτιώσεις που βελτιώνουν σημαντικά την απόδοση. Η ομαδοποιημένη μοντελοποίηση κωδικών επιτρέπει στη Microsoft να οργανώνει καλύτερα τους κωδικούς κωδικοποίησης, με αποτέλεσμα μικρότερα μήκη ακολουθιών που ενισχύουν την ταχύτητα εξαγωγής συμπερασμάτων και βοηθούν να ξεπεραστούν οι προκλήσεις που σχετίζονται με τη μοντελοποίηση μεγάλων ακολουθιών.

Η δειγματοληψία με επίγνωση της επανάληψης, εν τω μεταξύ, επανεξετάζει την αρχική διαδικασία δειγματοληψίας του πυρήνα για να αναζητά την επανάληψη συμβόλων κατά την αποκωδικοποίηση. Η Microsoft δήλωσε ότι αυτή η διαδικασία συμβάλλει στη σταθεροποίηση της αποκωδικοποίησης και αποτρέπει το πρόβλημα του άπειρου βρόχου που υπήρχε στο αρχικό Vall-E.

Η Microsoft έθεσε το Vall-E 2 σε δοκιμασία χρησιμοποιώντας τα σύνολα δεδομένων LibriSpeech και VCTK και τα πέρασε και τα δύο με επιτυχία. Όταν λένε ότι επιτυγχάνει την ανθρώπινη ισοτιμία, εννοούν ότι το Vall-E 2 είχε καλύτερες επιδόσεις από τα δείγματα της βασικής αλήθειας όσον αφορά την ευρωστία, την ομοιότητα και τη φυσικότητα. Με άλλα λόγια, το εργαλείο μπορεί να παράγει ομιλία που είναι σχεδόν αναγνωρίσιμη ως προς τη φυσικότητα με την αρχική ομιλία του ανθρώπου.

Η Microsoft μοιράστηκε δεκάδες δείγματα από το Vall-E 2, τα οποία μπορείτε να βρείτε στη σελίδα σύνοψης της έρευνας. Πράγματι, τα δείγματα του Vall-E 2 είναι απίστευτα αληθοφανή και δεν διακρίνονται από τον ανθρώπινο ομιλητή. Το εργαλείο τεχνητής νοημοσύνης κατέχει ακόμη και λεπτές λεπτομέρειες, όπως το να δίνει έμφαση στη σωστή λέξη σε μια πρόταση, όπως κάνουν οι άνθρωποι υποσυνείδητα όταν μιλούν.

Η Microsoft δήλωσε ότι το Vall-E 2 είναι ένα καθαρά ερευνητικό έργο, προσθέτοντας ότι δεν σχεδιάζει να ενσωματώσει την τεχνολογία σε ένα καταναλωτικό προϊόν ή να διαθέσει το εργαλείο στο ευρύ κοινό. Επίσης, σημείωσε ότι ενέχει δυνητικό κίνδυνο για κακή χρήση, όπως η μίμηση ενός συγκεκριμένου προσώπου ή η παραποίηση της φωνητικής αναγνώρισης.

Τούτου λεχθέντος, η εταιρεία πιστεύει ότι θα μπορούσε να έχει εφαρμογές στην εκπαίδευση, τη μετάφραση, την προσβασιμότητα, τη δημοσιογραφία, το αυτοδημιούργητο περιεχόμενο και τα chatbots, μεταξύ άλλων.