Το μοντέλο NGPT της NVIDIA μειώνει τον χρόνο εκπαίδευσης AI κατά 20 φορές

13 Νοεμβρίου, 2024

1326

Το μοντέλο NGPT της NVIDIA μειώνει τον χρόνο εκπαίδευσης AI κατά 20 φορές

Περιεχόμενα Άρθρου

Η NVIDIA αποκάλυψε μια σημαντική πρόοδο στην εκπαίδευση μοντέλων AI με την κυκλοφορία του Κανονοποιημένος μετασχηματιστής (nGPT). Αυτή η νέα αρχιτεκτονική, που έχει σχεδιαστεί για να βελτιώνει τη διαδικασία εκπαίδευσης για μεγάλα γλωσσικά μοντέλα (LLM), έχει τη δυνατότητα να επιταχύνει τους χρόνους εκπαίδευσης κατά 4 έως 20 φορές, διατηρώντας παράλληλα τη σταθερότητα και την ακρίβεια του μοντέλου. Το μοντέλο nGPT εξορθολογίζει τη διαδικασία εκπαίδευσης, χρησιμοποιώντας λιγότερους πόρους και προσφέροντας μια πιο αποτελεσματική λύση στην ανάπτυξη της τεχνητής νοημοσύνης.

Τι κάνει το nGPT διαφορετικό: Υπερσφαιρική μάθηση

Στον πυρήνα της αποτελεσματικότητας του nGPT βρίσκεται μια έννοια που ονομάζεται μάθηση υπερσφαιρικής αναπαράστασης. Στα παραδοσιακά μοντέλα μετασχηματιστών, τα δεδομένα συχνά επεξεργάζονται χωρίς ένα σταθερό γεωμετρικό πλαίσιο. Το nGPT της NVIDIA το αλλάζει αντιστοιχίζοντας όλα τα βασικά στοιχεία —όπως ενσωματώσεις, πίνακες προσοχής και κρυφές καταστάσεις— στην επιφάνεια μιας υπερσφαίρας. Αυτή η γεωμετρική ρύθμιση βοηθά να διασφαλιστεί ότι όλα τα επίπεδα του μοντέλου παραμένουν ισορροπημένα κατά τη διάρκεια της εκπαίδευσης, δημιουργώντας μια πιο σταθερή και αποτελεσματική διαδικασία εκμάθησης.

Αυτή η προσέγγιση μειώνει σημαντικά τον αριθμό των βημάτων εκπαίδευσης. Αντί να εφαρμόζεται η μείωση βάρους απευθείας στα βάρη μοντέλων όπως τα προηγούμενα μοντέλα, το nGPT βασίζεται σε μαθημένες παραμέτρους κλιμάκωσηςπου βελτιστοποιούν τον τρόπο προσαρμογής του μοντέλου κατά τη διάρκεια της εκπαίδευσης. Είναι σημαντικό ότι αυτή η μέθοδος εξαλείφει την ανάγκη για άλλες τεχνικές κανονικοποίησης όπως π.χ LayerNorm ή RMSNormκαθιστώντας τη διαδικασία απλούστερη και ταχύτερη.

Το μοντέλο nGPT της NVIDIA μειώνει τον χρόνο εκπαίδευσης AI κατά 20x (Πίστωση εικόνας)

Ταχύτερη εκπαίδευση με λιγότερους πόρους

Τα αποτελέσματα της αρχιτεκτονικής του nGPT είναι ξεκάθαρα. Σε δοκιμές που διεξήχθησαν χρησιμοποιώντας το σύνολο δεδομένων OpenWebText, το nGPT της NVIDIA ξεπέρασε σταθερά τα παραδοσιακά μοντέλα GPT όσον αφορά τόσο την ταχύτητα όσο και την αποτελεσματικότητα. Με εισαγωγές κειμένου έως και 4.000 διακριτικά, το nGPT απαιτούσε πολύ λιγότερους κύκλους εκπαίδευσης για να επιτύχει παρόμοια απώλεια επικύρωσης, μειώνοντας δραστικά τον χρόνο που απαιτείται για την εκπαίδευση αυτών των πολύπλοκων μοντέλων.

Επιπλέον, η υπερσφαιρική δομή του nGPT παρέχει καλύτερη ενσωμάτωση διαχωρισιμότητας. Αυτό σημαίνει ότι το μοντέλο μπορεί πιο εύκολα να διακρίνει τις διαφορετικές εισόδους, οδηγώντας σε βελτιωμένη ακρίβεια κατά τη διάρκεια τυπικών δοκιμών AI. Η βελτιωμένη γενίκευση του μοντέλου του δίνει επίσης τη δυνατότητα να αποδίδει καλύτερα σε εργασίες πέρα από την αρχική του εκπαίδευση, επιταχύνοντας τη σύγκλιση διατηρώντας παράλληλα υψηλά επίπεδα ακρίβειας.

Γιατί αυτό έχει σημασία για την εκπαίδευση AI

Ένα βασικό πλεονέκτημα του nGPT είναι η ικανότητά του να συνδυάζει και τα δύο ομαλοποίηση και αναπαράσταση μάθηση σε ένα ενιαίο πλαίσιο. Αυτός ο σχεδιασμός απλοποιεί την αρχιτεκτονική του μοντέλου, καθιστώντας ευκολότερη την κλίμακα και την προσαρμογή για πιο σύνθετα υβριδικά συστήματα. Αυτό θα μπορούσε ενδεχομένως να οδηγήσει στην ανάπτυξη ακόμη πιο ισχυρών συστημάτων AI στο μέλλον, καθώς η προσέγγιση του nGPT θα μπορούσε να ενσωματωθεί σε άλλους τύπους μοντέλων και αρχιτεκτονικών.

Πίστωση επιλεγμένης εικόνας: Kerem Gülen/Ιδεόγραμμα

VIA: DataConomy.com

Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ

Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.

Προηγούμενο άρθρο

The Witcher 4

Επόμενο άρθρο

Automata” λαμβάνει το “Stellar Blade”

Διάφορα από την ίδια κατηγορία

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Το μοντέλο NGPT της NVIDIA μειώνει τον χρόνο εκπαίδευσης AI κατά 20 φορές

Τι κάνει το nGPT διαφορετικό: Υπερσφαιρική μάθηση

Ταχύτερη εκπαίδευση με λιγότερους πόρους

Γιατί αυτό έχει σημασία για την εκπαίδευση AI

Η Meta θέλει να χρησιμοποιήσει την πυρηνική ενέργεια για τα κέντρα δεδομένων της

Εξοικονόμηση μετά την Cyber Monday: αποκτήστε μια ηλεκτρική σκούπα ρομπότ iRobot Roomba για λιγότερο από 150 $

Η Google μοιράζεται τι να περιμένετε από τις αναβαθμίσεις του Play Integrity

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Δημοφιλείς Άρθρα

Αυστραλία: Η Meta βάζει φρένο στο… «δόλωμα διασημοτήτων» για να περιορίσει τις οικονομικές απάτες –

Meta: Μπλόκο σε χιλιάδες απάτες με διασημότητες έπειτα από πιέσεις της Αυστραλίας

Η Meta ετοιμάζει παγκόσμιο υποβρύχιο καλώδιο Internet με κόστος $10 δισ.

Ο Έλον Μασκ θέλει το δικαστήριο να σταματήσει το OpenAI να γίνει κερδοσκοπικό

Τελευταία Νέα

Έρχονται τον Δεκέμβριο στο Cinobo

Η Meta θέλει να χρησιμοποιήσει την πυρηνική ενέργεια για τα κέντρα δεδομένων της

Εξοικονόμηση μετά την Cyber Monday: αποκτήστε μια ηλεκτρική σκούπα ρομπότ iRobot Roomba για λιγότερο από 150 $

Η Google μοιράζεται τι να περιμένετε από τις αναβαθμίσεις του Play Integrity

Επιλογές Συντακτών

Tesla Model Pi: Η Αλήθεια Πίσω από τις Φήμες για το Νέο Smartphone της Tesla

Galaxy S25 Ultra: Αποκλειστικές Εικόνες & Πληροφορίες για το One UI 7

Simple Analytics: Μια Σύντομη Ματιά στο Εργαλείο Ανάλυσης που Βάζει την Ιδιωτικότητα Πρώτη

Τυχαία Άρθρα

Το Crash Team Racing Nitro-Fueled κυκλοφορεί στο Game Pass αύριο

Το Αινιγματικό Σήμα της Γης

Το Voyager 1 επιστρέφει σε πλήρη λειτουργία μετά από τεχνικά προβλήματα – NASA

POPULAR CATEGORY

ABOUT US

FOLLOW US