Τα υπερρεαλιστικά avatars του VASA-1 από τη Microsoft

28 Απριλίου, 2024

Το VASA-1 είναι το νέο μοντέλο τεχνητής νοημοσύνης της Microsoft. Μια εκπληκτική τεχνολογία ικανή να δημιουργήσει ρεαλιστικά avatar από δύο απλά συστατικά: μια στατική εικόνα και ένα φωνητικό κλιπ. Εάν ενδιαφέρεστε να μάθετε περισσότερα για Το VASA-1 και τα υπερρεαλιστικά του avatars που δημιουργούνται από την AIσας ενθαρρύνουμε να συνεχίσετε την ανάγνωση.

Φαινόταν ότι το Redmond επρόκειτο να επικεντρώσει όλες τις προσπάθειές του στην ανάπτυξη αυτού του τύπου τεχνολογίας στον βοηθό Copilot. Ένα εργαλείο που συνδυάζει γλωσσικά μοντέλα με εφαρμογές Microsoft 365, ωστόσο, φαίνεται ότι τα σχέδιά του είναι πιο φιλόδοξα. Η απόδειξη αυτού βρίσκεται στο VASA-1.

Τι είναι το VASA-1;

VASA είναι το ακρωνύμιο του Εφαρμογή Visual Affective Skillsμια έννοια που μπορεί να μεταφραστεί ως Εφαρμογή Οπτικο-Συναισθηματικών Δεξιοτήτων. Ο αριθμός “1” είναι μια σαφής αναφορά ότι αυτή είναι μόνο η πρώτη από μια μακρά λίστα εκδόσεων που θα έρθουν στο μέλλον για να μας αφήσουν ακόμα πιο έκπληκτους.

VASA-1

Τι κάνει το VASA-1 τόσο ξεχωριστό; Ποια είναι η κύρια καινοτομία σας; Υπάρχουν ήδη πολλές εφαρμογές που μπορούν να ζωντανέψουν τις φωτογραφίες με κινήσεις παρόμοιες με αυτές ενός GIF. Αυτό που εισάγει αυτό το εργαλείο που δημιουργήθηκε από μια ομάδα ερευνητών AI από τη Microsoft Research Asia είναι κάτι πολύ πιο εξελιγμένο: ένα σύστημα τεχνητής νοημοσύνης που μπορεί να κάνει τις φωτογραφίες να τραγουδούν και να χορεύουν. Δεν πρόκειται για κινούμενα σχέδια, αλλά για κάτι άλλο.

Το αποτέλεσμα είναι εκπληκτικά ρεαλιστικό. Υπερρεαλιστικό θα ήταν ο καταλληλότερος όρος. Αυτό το μοντέλο μπορεί να παράγει κινήσεις χειλιών τέλεια συγχρονισμένες με τον ήχο, καθώς και να καταγράφει ένα ευρύ φάσμα αποχρώσεων του προσώπου και φυσικές κινήσεις του κεφαλιού. Συνολικά, παρουσιάζει μια ζωντανή και αυθεντική εικόνα που δεν έχει ξαναδεί σε άλλα παρόμοια εργαλεία.

Εκτός από αυτό, το εργαλείο επιτρέπει επίσης τη διαδικτυακή παραγωγή βίντεο 512×512 με ταχύτητα έως και 45 καρέ ανά δευτερόλεπτο (ελαφρώς λιγότερο εάν χρησιμοποιείται σε λειτουργία εκτός σύνδεσης) με αμελητέα αρχική καθυστέρηση. Αυτό ανοίγει το δρόμο για αλληλεπιδράσεις σε πραγματικό χρόνο με ρεαλιστικά avatar που μπορούν ακόμη και να φτάσουν μιμούνται ανθρώπινες συμπεριφορές συνομιλίας.

VASA-1: Μερικά παραδείγματα

Αυτή η μέθοδος δείχνει την ικανότητα χειρισμού αρχείων εικόνας και ήχου ευρέος φάσματος. Έτσι, μπορούν να συμπεριληφθούν καλλιτεχνικές φωτογραφίες και ακόμη και ηχητικά από διαφορετικές γλώσσες, όχι μόνο αγγλικά. Σε αυτή την ανάρτηση έχουμε συμπεριλάβει μερικά παραδείγματα που πραγματικά μας αφήνουν άφωνους. Είναι δύσκολο να πούμε ότι τα πρόσωπα που εμφανίζονται να μιλούν και να χειρονομούν στα βίντεο δεν αντιστοιχούν σε αυτά των πραγματικών ανθρώπων, αλλά είναι απλά άβαταρ:

Οποιοσδήποτε χρήστης με υπολογιστή μέσης ισχύος (για παράδειγμα, GPU Nvidia RTX 4090) μπορεί να χρησιμοποιήσει αυτό το εργαλείο για να δημιουργήσει βίντεο αυτού του ρεαλιστικού επιπέδου μέσα σε λίγα μόνο λεπτά.

Είναι εντυπωσιακό να βλέπουμε πώς αυτά τα κινούμενα σχέδια συνδυάζουν τόσο αποτελεσματικά εικόνες και ήχο, δίνοντας στο κεφάλι που μιλάει μπροστά μας έναν ασυνήθιστο βαθμό ρεαλισμού. Ωστόσο, Οι ειδικοί επισημαίνουν ότι εξακολουθούν να υπάρχουν λάθη που αποκαλύπτουν την ψεύτικη φύση αυτών των εικόνων. Λεπτομέρειες ανεπαίσθητες για τους περισσότερους από εμάς, αλλά που δεν ξεφεύγουν από τους καλύτερα εκπαιδευμένους παρατηρητές: μερικά ανεπαίσθητα ελαττώματα και σημάδια που αποκαλύπτουν την παρέμβαση της τεχνητής νοημοσύνης.

Οι κίνδυνοι ενός εργαλείου που είναι πολύ ακριβές

Αυτό το εργαλείο είναι τόσο εξαιρετικό και τόσο ρεαλιστικό που η Microsoft δεν τόλμησε να κάνει το βήμα να κυκλοφορήσει ούτε ένα ανοιχτό demo. Η ανησυχία για την κακή χρήση και τους πιθανούς κινδύνους που θα αποτελούσε για κλοπή ταυτότητας συμβουλεύει να ενεργείτε με μεγάλη προσοχή.

Σε κάθε περίπτωση, στην επίσημη ιστοσελίδα του Έργο VASA-1που φιλοξενείται στον ιστότοπο της Microsoft, βρίσκουμε ένα ενδιαφέρον βίντεο που διαρκεί λίγο περισσότερο από ένα λεπτό στο οποίο μπορούμε να παρακολουθήσουμε τη διαδικασία δημιουργίας αυτών των υπερρεαλιστικών avatar:

Βασικά, η μέθοδος συνίσταται στην επιλογή μιας εικόνας (ανθρώπινου προσώπου) και στη συνέχεια ενός αρχείου ήχου. Το AI στη συνέχεια τους «παντρεύει». Κατά τη διαδικασία δημιουργίας, ο χρήστης μπορεί να περιγράψει πολλές αποχρώσεις μέσω των κουμπιών και των γραμμών που εμφανίζονται στη διεπαφή. Επενδύοντας λίγο χρόνο και δημιουργικότητα, μπορούν να επιτευχθούν εντυπωσιακά αποτελέσματα.

Προς το παρόν, οι προθέσεις των προγραμματιστών VASA-1 είναι ακριβώς το αντίθετο από τη δημιουργία πλαστών βίντεο και phishing (ή, τουλάχιστον, αυτό λένε). Δηλαδή, βοηθούν στον εντοπισμό και την καταπολέμηση των βίντεο βαθύ ψεύτικο. Μπορεί να είναι αλήθεια, αφού κανείς δεν ξέρει καλύτερα από αυτούς πώς να ξεγελάσει το ανθρώπινο μυαλό μέσω ολοένα και πιο ισχυρών και ακριβών εργαλείων τεχνητής νοημοσύνης.

Παρόλα αυτά, οι προγραμματιστές VASA-1 επιμένουν επίσης να τονίζουν τις πιο θετικές πτυχές της δημιουργίας του: βελτίωση της προσβασιμότητας για άτομα με δυσκολίες επικοινωνίας, προσφορά εταιρικής ή θεραπευτικής υποστήριξης σε όσους τη χρειάζονται και άλλα πλεονεκτήματα που απορρέουν από την υπεύθυνη χρήση της τεχνητής νοημοσύνης. Η πρόκληση είναι να γίνει αυτό δυνατό.

VIA: windowsnoticias.com

Προηγούμενο άρθρο

Η Google επικεντρώνεται σε άλλες τεχνολογίες από το Chromecast και αυτό είναι απολύτως κατανοητό

Επόμενο άρθρο

Προβλήματα ανάκτησης κωδικϋν πρόσβασης Apple ID: Ένας εφιάλτης για τους χρήστες iOS και Mac

Τα υπερρεαλιστικά avatars του VASA-1 από τη Microsoft

Τι είναι το VASA-1;

VASA-1: Μερικά παραδείγματα

Οι κίνδυνοι ενός εργαλείου που είναι πολύ ακριβές

Πώς να ελέγξω τη σύνδεση του δικτύου μου;width=device-width, initial-scale=1.

Πώς να εγκαταστήσετε macOS στα Windows χρησιμοποιώντας μια εικονική μηχανή

Εναλλακτικές επιλογές για βίντεο επεξεργασία στα Windows

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

Το Chrome ενισχύεται με το τοπικό Gemini Nano στη συσκευή!

Μεγάλες εκπτώσεις σε παιχνίδια λόγω τερματισμού Xbox 360

Η νέα λειτουργία ‘Ρωτήστε φωτογραφίες’ στο Google Photos: Μια αναβάθμιση που θα σας εντυπωσιάσει

Οδηγίες και λύσεις για το παζλ “Συνδέσεων” από την NYT, Τελευταία Ανανέωση 15/5 – Οδηγοί για την επίλυση του “Συνδέσεις” #339

Το Chrome ενισχύεται με το τοπικό Gemini Nano στη συσκευή!