ΑρχικήNewsMicrosoft Patents Γεννήτρια ήχου σε εικόνα σε πραγματικό χρόνο

Microsoft Patents Γεννήτρια ήχου σε εικόνα σε πραγματικό χρόνο


Βρίσκεστε σε μια ακόμη ατελείωτη συνάντηση Zoom ή Teams. Ακούγονται φωνές, διαφάνειες που μόλις σου κρατούν την προσοχή και τα μάτια σου γυαλίζουν καθώς κάποιος κροταλίζει τα τριμηνιαία στατιστικά. Τώρα, φανταστείτε εάν, αντί να σας κουράζει με υπολογιστικά φύλλα, η τεχνητή νοημοσύνη στη σύσκεψη αρχίσει να δημιουργεί επιτόπου οπτικά στοιχεία—πραγματικές εικόνες που ζωντανεύουν τη συνομιλία, που δημιουργούνται σε πραγματικό χρόνο καθώς μιλούν οι άνθρωποι. Ακούγεται φουτουριστικό, αλλά αυτό ακριβώς μαγειρεύει η Microsoft με μια πατέντα.

Η Microsoft πατεντάρει φωνή σε εικόνα

Η τελευταία ιδέα της Microsoft (και ναι, είναι ακόμα μια ιδέα προς το παρόν) είναι να λαμβάνει ζωντανές ροές —διαλέξεις, συναντήσεις, οποιαδήποτε προφορική συνομιλία— και να τις μετατρέπει σε εικόνες, εν κινήσει. Το Γραφείο Διπλωμάτων υρεσιτεχνίας και Εμπορικών Σημάτων των ΗΠΑ μόλις δημοσίευσε τις λεπτομέρειες στις 10 Οκτωβρίου 2024αφού η Microsoft το κατέθεσε τον Απρίλιο. Το σύστημα ουσιαστικά θα ακούει τις κλήσεις σας, θα δημιουργεί μια μεταγραφή κειμένου, θα το τροφοδοτεί μέσω ενός μοντέλου AI και θα βγάζει εικόνες που ταιριάζουν με αυτό που λέγεται.

Όχι άλλο “επιτρέψτε μου να τραβήξω μια τσουλήθρα για αυτό”.

Ένα στιγμιότυπο οθόνης για το δίπλωμα ευρεσιτεχνίας (Πίστωση εικόνας)

Το τέλος των βαρετών συναντήσεων; Ίσως όχι, αλλά θα είναι κοντά

Οι περισσότερες εικονικές συναντήσεις είναι αρκετά βαρετές. Και ας μην προσποιούμαστε ότι δεν ξοδεύουμε ένα μεγάλο μέρος του χρόνου χωρίζοντας σε ζώνες.

Αλλά τι γίνεται αν αυτές οι συναντήσεις αρχίσουν ξαφνικά να βγάζουν γραφικά τόσο γρήγορα όσο η συζήτηση κινείται. Κάποιος αναφέρει νέες ιδέες προϊόντων και μέσα σε λίγα δευτερόλεπτα, οι εικόνες που δημιουργούνται από AI αρχίζουν να εμφανίζονται στην οθόνη. Οι ξηροί αριθμοί που αναφέρουν οι άνθρωποι μετατρέπονται ξαφνικά σε δυναμικά γραφήματα χωρίς κανείς να κάνει κλικ σε ένα κουμπί. Τι είναι αυτό; Συμφόρηση αλυσίδας εφοδιασμού στη Νοτιοανατολική Ασία; Μπαμ! Εμφανίζεται ένας διαδραστικός χάρτης, ο οποίος επιαίνει τις περιοχές ανησυχίας.

Τώρα, προτού ενθουσιαστείτε πολύ, ας είμαστε ξεκάθαροι – αυτό είναι ακόμα στη φάση της ευρεσιτεχνίας. Και αν είστε εδώ αρκετό καιρό, ξέρετε ότι πολλές πατέντες δεν πηγαίνουν πουθενά. Η κατάθεση ενός διπλώματος ευρεσιτεχνίας είναι σαν να φυτεύεις έναν σπόρο – μπορεί να εξελιχθεί σε κάτι σπουδαίο ή μπορεί απλώς να παραμείνει μια ιδέα που δεν αναπτύσσεται ποτέ.

Τούτου λεχθέντος, εάν η Microsoft το κάνει, το προφανές σπίτι για αυτήν την τεχνολογία είναι το Microsoft Teams. Ενίσχυσαν τις ομάδες με όλα τα είδη εργαλείων που βασίζονται σε τεχνητή νοημοσύνη, από το Copilot έως τις βελτιωμένες δυνατότητες τηλεδιάσκεψης, οπότε αυτό θα ήταν ένα βήμα που πρέπει να κάνετε.

Έχουμε ήδη δει εργαλεία μετατροπής κειμένου σε εικόνα, όπως το DALL-E και το Midjourney, να ταράζουν τα μυαλά των ανθρώπων. Τώρα, μπορούσαμε να δούμε ότι αυτή η έννοια εφαρμόζεται στη ζωντανή ομιλία. Είναι σαν να δίνεις φωνή στη δημιουργικότητα της τεχνητής νοημοσύνης σε πραγματικό χρόνο.

Αλλά προς το παρόν, περιμένουμε.


Πίστωση επιλεγμένης εικόνας: Κερέμ Γκιουλέν/Μέσα ταξίδι



VIA: DataConomy.com

Dimitris Marizas
Dimitris Marizashttps://www.cybervista.gr
Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.