The Rise Of AI Lip-sync: From Uncanny Valley to Hyperrealism

10 Νοεμβρίου, 2024

1359

The Rise Of AI Lip-sync: From Uncanny Valley to Hyperrealism

Περιεχόμενα Άρθρου

Θυμάστε την αμήχανη μεταγλώττιση σε παλιές ταινίες kung-fu; Ή το τρομακτικό lip-sync σε πρώιμες ταινίες κινουμένων σχεδίων; Εκείνες οι μέρες ξεθωριάζουν γρήγορα και χάρη στην άνοδο της τεχνολογίας lip-sync που λειτουργεί με AI, θα μπορούσε να είναι για πάντα πίσω μας. Από τον Απρίλιο του 2023, ο αριθμός των λύσεων και ο όγκος των Αναζητήσεις λέξεων-κλειδιών “AI lip-sync”. έχει αυξηθεί δραματικά, φτάνοντας από το πουθενά σε μια από τις κρίσιμες τάσεις στη γενετική τεχνητή νοημοσύνη.

Αυτός ο τομέας αιχμής φέρνει επανάσταση στον τρόπο με τον οποίο δημιουργούμε και καταναλώνουμε περιεχόμενο βίντεο, με συνέπειες για τα πάντα, από τη δημιουργία ταινιών και τα κινούμενα σχέδια έως τις τηλεδιασκέψεις και τα παιχνίδια.

Για να εμβαθύνω σε αυτή τη συναρπαστική τεχνολογία, μίλησα με τον Aleksandr Rezanov, έναν μηχανικό Computer Vision and Machine Learning, ο οποίος στο παρελθόν πρωτοστάτησε στην ανάπτυξη lip-sync στη Rask AI και επί του παρόντος εργάζεται στο Higgsfield AI στο Λονδίνο. Η τεχνογνωσία του Rezanov προσφέρει μια ματιά στις περίπλοκες λειτουργίες, τις προκλήσεις και τις δυνατότητες μετασχηματισμού του AI lip-sync.

Destructing the Magic: How AI lip-sync λειτουργεί

“Οι περισσότερες αρχιτεκτονικές lip-sync λειτουργούν με βάση μια αρχή εμπνευσμένη από το χαρτί”Wav2Lip: Βίντεο με ακριβή συγχρονισμό χειλιών στην άγρια φύση», μου είπε ο Ρεζάνοφ. Αυτά τα συστήματα χρησιμοποιούν μια πολύπλοκη αλληλεπίδραση νευρωνικών δικτύων για να αναλύσουν την είσοδο ήχου και να δημιουργήσουν αντίστοιχες κινήσεις των χειλιών. «Τα δεδομένα εισόδου περιλαμβάνουν μια εικόνα όπου θέλουμε να αλλάξουμε το στόμα, μια εικόνα αναφοράς που δείχνει πώς φαίνεται το άτομο και μια είσοδο ήχου», είπε ο Ρεζάνοφ.

Τρεις ξεχωριστοί κωδικοποιητές επεξεργάζονται αυτά τα δεδομένα, δημιουργώντας συμπιεσμένες αναπαραστάσεις που αλληλεπιδρούν για να δημιουργήσουν ρεαλιστικά σχήματα στόματος. «Το έργο του lip-sync είναι να «ζωγραφίσουμε» ένα στόμα όπου είναι καλυμμένο (ή να προσαρμόσουμε ένα υπάρχον στόμα), δεδομένης της εμφάνισης του ατόμου και του τι έλεγε εκείνη τη στιγμή», είπε ο Rezanov.

Αυτή η διαδικασία περιλαμβάνει περίπλοκες τροποποιήσεις, συμπεριλαμβανομένης της χρήσης πολλαπλών εικόνων αναφοράς για την αποτύπωση της εμφάνισης ενός ατόμου, της χρήσης διαφορετικών μοντέλων προσώπου και ποικίλων μεθόδων κωδικοποίησης ήχου.

«Ουσιαστικά, οι μελέτες για το lip-syncing διερευνούν ποια μπλοκ σε αυτό το πλαίσιο μπορούν να αντικατασταθούν ενώ οι βασικές αρχές παραμένουν συνεπείς: τρεις κωδικοποιητές, εσωτερική αλληλεπίδραση και ένας αποκωδικοποιητής», είπε ο Rezanov.

Η ανάπτυξη της τεχνολογίας AI lip-sync είναι μια πρόκληση. Η ομάδα του Rezanov στο Rask AI αντιμετώπισε πολλές προκλήσεις, ιδιαίτερα στην επίτευξη οπτικής ποιότητας και ακριβούς συγχρονισμού ήχου-βίντεο.

«Για να το λύσουμε αυτό, εφαρμόσαμε διάφορες στρατηγικές», είπε ο Ρεζάνοφ. «Αυτό περιλάμβανε την τροποποίηση της αρχιτεκτονικής του νευρωνικού δικτύου, τη βελτίωση και τη βελτίωση της διαδικασίας εκπαίδευσης και τη βελτίωση του συνόλου δεδομένων».

Η Rask πρωτοστάτησε επίσης στην υποστήριξη lip-sync για βίντεο με πολλά ηχεία, μια πολύπλοκη εργασία που απαιτεί diarization ηχείων – αυτόματη αναγνώριση και τμηματοποίηση μιας εγγραφής ήχου σε ξεχωριστά τμήματα ομιλίας – και ενεργή ανίχνευση ηχείων.

Beyond Entertainment: The Expanding Applications of AI lip-sync

Οι συνέπειες του AI lip-sync εκτείνονται πολύ πέρα από την ψυχαγωγία. «Η τεχνολογία Lip-sync έχει ένα ευρύ φάσμα εφαρμογών», είπε ο Rezanov. “Χρησιμοποιώντας υψηλής ποιότητας lip-sync, μπορούμε να εξαλείψουμε το οπτικοακουστικό κενό κατά την παρακολούθηση μεταφρασμένου περιεχομένου, επιτρέποντας στους θεατές να παραμείνουν βυθισμένοι χωρίς να αποσπώνται από αναντιστοιχίες μεταξύ ομιλίας και βίντεο.”

Αυτό έχει σημαντικές επιπτώσεις στην προσβασιμότητα, καθιστώντας το περιεχόμενο πιο ελκυστικό για τους θεατές που βασίζονται σε υπότιτλους ή μεταγλώττιση. Επιπλέον, το AI lip-sync μπορεί να βελτιστοποιήσει την παραγωγή περιεχομένου, μειώνοντας την ανάγκη για πολλαπλές λήψεις και μειώνοντας το κόστος.

«Αυτή η τεχνολογία θα μπορούσε να εξορθολογίσει και να μειώσει το κόστος παραγωγής περιεχομένου, εξοικονομώντας σημαντικούς πόρους στα στούντιο παιχνιδιών ενώ πιθανότατα θα βελτιώσει την ποιότητα των κινούμενων εικόνων», είπε ο Rezanov.

The Quest for Perfection: The Future of AI lip-sync

Ενώ το AI lip-sync έχει κάνει αξιοσημείωτα βήματα, η αναζήτηση για τέλειο, δυσδιάκριτο lip-syncing συνεχίζεται.

«Η μεγαλύτερη πρόκληση με την τεχνολογία lip-sync είναι ότι οι άνθρωποι, ως είδος, είναι εξαιρετικά ικανοί στην αναγνώριση προσώπων», είπε ο Rezanov. «Η εξέλιξη μας έχει εκπαιδεύσει για αυτό το έργο για χιλιάδες χρόνια, γεγονός που εξηγεί τις δυσκολίες στη δημιουργία οτιδήποτε σχετίζεται με πρόσωπα».

Σκιαγραφεί τρία στάδια στην ανάπτυξη του lip-sync: επίτευξη βασικού συγχρονισμού στόματος με ήχο, δημιουργία φυσικών και απρόσκοπτων κινήσεων και, τέλος, αποτύπωση λεπτών λεπτομερειών όπως πόροι, μαλλιά και δόντια.

«Προς το παρόν, το μεγαλύτερο εμπόδιο στον συγχρονισμό των χειλιών έγκειται στην ενίσχυση αυτού του επιπέδου λεπτομέρειας», είπε ο Ρεζάνοφ. «Τα δόντια και τα γένια παραμένουν ιδιαίτερα προκλητικά». Ως κάτοχος δοντιών και γενειάδας, μπορώ να επιβεβαιώσω την απογοήτευση (και μερικές φορές τα αποτελέσματα που προκαλούν γέλιο στην κοιλιά) που έχω βιώσει όταν δοκίμασα ορισμένες λύσεις τεχνητής νοημοσύνης για τα χείλη

Παρά αυτές τις προκλήσεις, ο Ρεζάνοφ παραμένει αισιόδοξος.

«Κατά τη γνώμη μου, πλησιάζουμε σταθερά στην επίτευξη πραγματικά δυσδιάκριτου lip-sync», είπε ο Rezanov. «Αλλά ποιος ξέρει τι νέες λεπτομέρειες θα αρχίσουμε να παρατηρούμε όταν φτάσουμε εκεί;»

Από το lip-sync στη χειραγώγηση προσώπου: The Next Frontier

Η δουλειά του Rezanov στο Higgsfield AI βασίζεται στην τεχνογνωσία του στο lip-sync, εστιάζοντας σε ευρύτερες τεχνικές χειραγώγησης προσώπου.

«Η παραγωγή βίντεο είναι ένα τεράστιο πεδίο και είναι αδύνατο να ξεχωρίσουμε μόνο μία πτυχή», είπε ο Ρεζάνοφ. «Στην εταιρεία, χειρίζομαι κυρίως εργασίες που σχετίζονται με χειραγώγηση προσώπου, κάτι που ευθυγραμμίζεται στενά με την προηγούμενη εμπειρία μου».

Η τρέχουσα εστίασή του περιλαμβάνει τη βελτιστοποίηση τεχνικών εναλλαγής προσώπων και τη διασφάλιση της συνέπειας χαρακτήρων στο παραγόμενο περιεχόμενο. Αυτή η εργασία ωθεί τα όρια της χειραγώγησης βίντεο που βασίζεται στην τεχνητή νοημοσύνη, ανοίγοντας νέες δυνατότητες για δημιουργική έκφραση και τεχνολογική καινοτομία.

Καθώς η τεχνολογία AI lip-sync εξελίσσεται, μπορούμε να περιμένουμε ακόμα πιο ρεαλιστικές και καθηλωτικές εμπειρίες σε ταινίες, κινούμενα σχέδια, παιχνίδια και όχι μόνο. Η παράξενη κοιλάδα συρρικνώνεται και το μέλλον των υπερρεαλιστικών ψηφιακών ανθρώπων είναι εφικτό.

VIA: DataConomy.com

Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ

Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.

Προηγούμενο άρθρο

χρυσή διάκριση για το πρόγραμμα εξ αποστάσεως εργασίας — InfoCom

Επόμενο άρθρο

Κριτικές Mac Mini με M4 και M4 Pro: Μικρότερη σχεδίαση και απόδοση Pro το κάνουν μια σημαντική αναβάθμιση

Διάφορα από την ίδια κατηγορία

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

The Rise Of AI Lip-sync: From Uncanny Valley to Hyperrealism

Destructing the Magic: How AI lip-sync λειτουργεί

Beyond Entertainment: The Expanding Applications of AI lip-sync

The Quest for Perfection: The Future of AI lip-sync

Από το lip-sync στη χειραγώγηση προσώπου: The Next Frontier

COSMOTE CINEMA CHRISTMAS HD: Πάνω από 150 ταινίες για όλη την οικογένεια στο χριστουγεννιάτικο κανάλι της COSMOTE TV

Ανασκόπηση Cambridge Audio Melomania P100: Ένα εντυπωσιακό ντεμπούτο ακουστικών

Η Amazon αποκαλύπτει νέα μοντέλα τεχνητής νοημοσύνης με βίντεο και εικόνες-έκπληξη για να ανταγωνιστεί τα καλύτερα της αγοράς

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Δημοφιλείς Άρθρα

Αυστραλία: Η Meta βάζει φρένο στο… «δόλωμα διασημοτήτων» για να περιορίσει τις οικονομικές απάτες –

Meta: Μπλόκο σε χιλιάδες απάτες με διασημότητες έπειτα από πιέσεις της Αυστραλίας

Η Meta ετοιμάζει παγκόσμιο υποβρύχιο καλώδιο Internet με κόστος $10 δισ.

Ο Έλον Μασκ θέλει το δικαστήριο να σταματήσει το OpenAI να γίνει κερδοσκοπικό

Τελευταία Νέα

COSMOTE CINEMA CHRISTMAS HD: Πάνω από 150 ταινίες για όλη την οικογένεια στο χριστουγεννιάτικο κανάλι της COSMOTE TV

Ανασκόπηση Cambridge Audio Melomania P100: Ένα εντυπωσιακό ντεμπούτο ακουστικών

Η Amazon αποκαλύπτει νέα μοντέλα τεχνητής νοημοσύνης με βίντεο και εικόνες-έκπληξη για να ανταγωνιστεί τα καλύτερα της αγοράς

Η εφαρμογή Recorder της Google θα μπορούσε να λάβει την αναβάθμιση που περίμεναν οι χρήστες (APK Teardown)

Επιλογές Συντακτών

Tesla Model Pi: Η Αλήθεια Πίσω από τις Φήμες για το Νέο Smartphone της Tesla

Galaxy S25 Ultra: Αποκλειστικές Εικόνες & Πληροφορίες για το One UI 7

Simple Analytics: Μια Σύντομη Ματιά στο Εργαλείο Ανάλυσης που Βάζει την Ιδιωτικότητα Πρώτη

Τυχαία Άρθρα

Η xAI συγκεντρώνει επενδύσεις $6 δισ. για την τεχνητή νοημοσύνη

Το αγαπημένο μου έξυπνο κρεβάτι έχει έκπτωση 750 $ σήμερα στην εκτεταμένη έκπτωση της Black Friday της Bryte — γιατί θα το αγόραζα

Νέο Kindle της Amazon με έκπτωση για Black Friday

POPULAR CATEGORY

ABOUT US

FOLLOW US