Τετάρτη, 6 Νοεμβρίου, 2024
ΑρχικήComputersThe Rise Of AI Lip-sync: From Uncanny Valley to Hyperrealism

The Rise Of AI Lip-sync: From Uncanny Valley to Hyperrealism


Θυμάστε την αμήχανη μεταγλώττιση σε παλιές ταινίες kung-fu; Ή το ταραχώδες lip-sync σε πρώιμες ταινίες κινουμένων σχεδίων; κείνες οι μέρες ξεθωριάζουν γρήγορα και χάρη στην άνοδο της τεχνολογίας lip-sync που λειτουργεί με AI, θα μπορούσε να είναι για πάντα πίσω μας. Από τον Απρίλιο του 2023, ο αριθμός των λύσεων και ο όγκος των Αναζητήσεις λέξεων-κλειδιών “AI lip-sync”. έχει αυξηθεί δραματικά, φτάνοντας από το πουθενά σε μια από τις κρίσιμες τάσεις στη γενετική τεχνητή νοημοσύνη.

Αυτός ο τομέας αιχμής φέρνει επανάσταση στον τρόπο με τον οποίο δημιουργούμε και καταναλώνουμε περιεχόμενο βίντεο, με συνέπειες για τα πάντα, από τη δημιουργία ταινιών και τα κινούμενα σχέδια έως τις τηλεδιασκέψεις και τα παιχνίδια.

Για να εμβαθύνω σε αυτή τη συναρπαστική τεχνολογία, μίλησα με τον Aleksandr Rezanov, έναν μηχανικό Computer Vision and Machine Learning, ο οποίος στο παρελθόν πρωτοστάτησε στην ανάπτυξη lip-sync στη AI και επί του παρόντος εργάζεται στο Higgsfield AI στο Λονδίνο. Η τεχνογνωσία του Rezanov προσφέρει μια ματιά στις περίπλοκες λειτουργίες, τις προκλήσεις και τις δυνατότητες μετασχηματισμού του AI lip-sync.

Destructing the Magic: How AI lip-sync λειτουργεί

“Οι περισσότερες αρχιτεκτονικές lip-sync λειτουργούν με βάση μια αρχή εμπνευσμένη από το χαρτί”Wav2Lip: Βίντεο με ακριβή συγχρονισμό χειλιών στην άγρια ​​φύση», μου είπε ο Ρεζάνοφ. Αυτά τα συστήματα χρησιμοποιούν μια πολύπλοκη αλληλεπίδραση νευρωνικών δικτύων για να αναλύσουν την είσοδο ήχου και να δημιουργήσουν αντίστοιχες κινήσεις των χειλιών. «Τα δεδομένα εισόδου περιλαμβάνουν μια εικόνα όπου θέλουμε να αλλάξουμε το στόμα, μια εικόνα αναφοράς που δείχνει πώς φαίνεται το άτομο και μια είσοδο ήχου», είπε ο Ρεζάνοφ.

Τρεις ξεχωριστοί κωδικοποιητές επεξεργάζονται αυτά τα δεδομένα, δημιουργώντας συμπιεσμένες αναπαραστάσεις που αλληλεπιδρούν για να δημιουργήσουν ρεαλιστικά σχήματα στόματος. «Το έργο του lip-sync είναι να «ζωγραφίσουμε» ένα στόμα όπου είναι καλυμμένο (ή να προσαρμόσουμε ένα υπάρχον στόμα), δεδομένης της εμφάνισης του ατόμου και του τι έλεγε εκείνη τη στιγμή», είπε ο Rezanov.

Αυτή η διαδικασία περιλαμβάνει περίπλοκες τροποποιήσεις, συμπεριλαμβανομένης της χρήσης πολλαπλών εικόνων αναφοράς για την αποτύπωση της εμφάνισης ενός ατόμου, της χρήσης διαφορετικών μοντέλων προσώπου και ποικίλων μεθόδων κωδικοποίησης ήχου.

«Ουσιαστικά, οι μελέτες για το lip-syncing διερευνούν ποια μπλοκ σε αυτό το πλαίσιο μπορούν να αντικατασταθούν ενώ οι βασικές αρχές παραμένουν συνεπείς: τρεις κωδικοποιητές, εσωτερική αλληλεπίδραση και ένας αποκωδικοποιητής», είπε ο Rezanov.

Η ανάπτυξη της τεχνολογίας AI lip-sync είναι μια πρόκληση. Η ομάδα του Rezanov στο Rask AI αντιμετώπισε πολλές προκλήσεις, ιδιαίτερα στην επίτευξη οπτικής ποιότητας και ακριβούς συγχρονισμού ήχου-βίντεο.

«Για να το λύσουμε αυτό, εφαρμόσαμε διάφορες στρατηγικές», είπε ο Ρεζάνοφ. «Αυτό περιλάμβανε την τροποποίηση της αρχιτεκτονικής του νευρωνικού δικτύου, τη βελτίωση και τη βελτίωση της διαδικασίας εκπαίδευσης και τη βελτίωση του συνόλου δεδομένων».

Η Rask πρωτοστάτησε επίσης στην υποστήριξη lip-sync για βίντεο με πολλά ηχεία, μια πολύπλοκη εργασία που απαιτεί diarization ηχείων – αυτόματη αναγνώριση και τμηματοποίηση μιας εγγραφής ήχου σε ξεχωριστά τμήματα ομιλίας – και ενεργή ανίχνευση ηχείων.

Beyond Entertainment: The Expanding Applications of AI lip-sync

Οι συνέπειες του AI lip-sync εκτείνονται πολύ πέρα ​​από την ψυχαγωγία. «Η τεχνολογία Lip-sync έχει ένα ευρύ φάσμα εφαρμογών», είπε ο Rezanov. “ρησιμοποιώντας υψηλής ποιότητας lip-sync, μπορούμε να εξαλείψουμε το οπτικοακουστικό κενό κατά την παρακολούθηση μεταφρασμένου περιεχομένου, επιτρέποντας στους θεατές να παραμείνουν βυθισμένοι χωρίς να αποσπώνται από αναντιστοιχίες μεταξύ ομιλίας και βίντεο.”

Αυτό έχει σημαντικές επιπτώσεις στην προσβασιμότητα, καθιστώντας το περιεχόμενο πιο ελκυστικό για τους θεατές που βασίζονται σε υπότιτλους ή μεταγλώττιση. Επιπλέον, το AI lip-sync μπορεί να βελτιστοποιήσει την παραγωγή περιεχομένου, μειώνοντας την ανάγκη για πολλαπλές λήψεις και μειώνοντας το κόστος.

«Αυτή η τεχνολογία θα μπορούσε να εξορθολογίσει και να μειώσει το κόστος παραγωγής περιεχομένου, εξοικονομώντας σημαντικούς πόρους στα στούντιο παιχνιδιών, ενώ πιθανότατα θα βελτιώσει την ποιότητα των κινούμενων εικόνων», είπε ο Rezanov.

The Quest for Perfection: The Future of AI lip-sync

Ενώ το AI lip-sync έχει κάνει αξιοσημείωτα βήματα, η αναζήτηση για τέλειο, δυσδιάκριτο lip-syncing συνεχίζεται.

«Η μεγαλύτερη πρόκληση με την τεχνολογία lip-sync είναι ότι οι άνθρωποι, ως είδος, είναι εξαιρετικά ικανοί στην αναγνώριση προσώπων», είπε ο Rezanov. «Η εξέλιξη μας έχει εκπαιδεύσει για αυτό το έργο για χιλιάδες χρόνια, γεγονός που εξηγεί τις δυσκολίες στη δημιουργία οτιδήποτε σχετίζεται με πρόσωπα».

Σκιαγραφεί τρία στάδια στην ανάπτυξη του lip-sync: επίτευξη βασικού συγχρονισμού στόματος με ήχο, δημιουργία φυσικών και απρόσκοπτων κινήσεων και, τέλος, αποτύπωση λεπτών λεπτομερειών όπως πόροι, μαλλιά και δόντια.

«Προς το παρόν, το μεγαλύτερο εμπόδιο στον συγχρονισμό των χειλιών έγκειται στην ενίσχυση αυτού του επιπέδου λεπτομέρειας», είπε ο Ρεζάνοφ. «Τα δόντια και τα γένια παραμένουν ιδιαίτερα προκλητικά». Ως κάτοχος δοντιών και γενειάδας, μπορώ να επιβεβαιώσω την απογοήτευση (και μερικές φορές τα αποτελέσματα που προκαλούν γέλιο στην κοιλιά) που έχω βιώσει όταν δοκίμασα ορισμένες λύσεις τεχνητής νοημοσύνης για τα χείλη

Παρά αυτές τις προκλήσεις, ο Ρεζάνοφ παραμένει αισιόδοξος.

«Κατά τη γνώμη μου, πλησιάζουμε σταθερά στην επίτευξη πραγματικά αδιάκριτου lip-sync», είπε ο Rezanov. «Αλλά ποιος ξέρει τι νέες λεπτομέρειες θα αρχίσουμε να παρατηρούμε όταν φτάσουμε εκεί;»

Από το lip-sync στη χειραγώγηση προσώπου: The Next Frontier

Η δουλειά του Rezanov στο Higgsfield AI βασίζεται στην τεχνογνωσία του στο lip-sync, εστιάζοντας σε ευρύτερες τεχνικές χειραγώγησης προσώπου.

«Η παραγωγή βίντεο είναι ένα τεράστιο πεδίο και είναι αδύνατο να ξεχωρίσουμε μόνο μία πτυχή», είπε ο Ρεζάνοφ. «Στην εταιρεία, χειρίζομαι κυρίως εργασίες που σχετίζονται με χειραγώγηση προσώπου, κάτι που ευθυγραμμίζεται στενά με την προηγούμενη εμπειρία μου».

Η τρέχουσα εστίασή του περιλαμβάνει τη βελτιστοποίηση τεχνικών εναλλαγής προσώπων και τη διασφάλιση της συνέπειας χαρακτήρων στο παραγόμενο περιεχόμενο. Αυτή η εργασία ωθεί τα όρια της χειραγώγησης βίντεο που βασίζεται στην τεχνητή νοημοσύνη, ανοίγοντας για δημιουργική έκφραση και τεχνολογική καινοτομία.

Καθώς η τεχνολογία AI lip-sync εξελίσσεται, μπορούμε να περιμένουμε ακόμα πιο ρεαλιστικές και καθηλωτικές εμπειρίες σε ταινίες, κινούμενα σχέδια, παιχνίδια και όχι μόνο. Η παράξενη κοιλάδα συρρικνώνεται και το μέλλον των υπερρεαλιστικών ψηφιακών ανθρώπων είναι εφικτό.



VIA: DataConomy.com

Dimitris Marizas
Dimitris Marizashttps://www.cybervista.gr
Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.
RELATED ARTICLES

Απάντηση

- Advertisment -

Most Popular

Lastest Articles

- Advertisment -