Περιεχόμενα Άρθρου
Το τελευταίο σύστημα τεχνητής νοημοσύνης (AI) του OpenAI έπεσε τον Σεπτέμβριο με μια τολμηρή υπόσχεση. Η εταιρεία πίσω από το chatbot ChatGPT επιδεικνύεται o1 — η πιο πρόσφατη σουίτα μεγάλων γλωσσικών μοντέλων (LLMs) — καθώς διαθέτει «νέο επίπεδο ικανότητας τεχνητής νοημοσύνης». Το OpenAI, το οποίο εδρεύει στο Σαν Φρανσίσκο της Καλιφόρνια, ισχυρίζεται ότι το o1 λειτουργεί με τρόπο που είναι πιο κοντά στο πώς σκέφτεται ένα άτομο από ό,τι τα προηγούμενα LLM.
Η κυκλοφορία έριξε φρέσκο καύσιμο σε μια συζήτηση που σιγοβράζει εδώ και δεκαετίες: πόσο καιρό θα περάσει έως ότου ένα μηχάνημα να είναι ικανό για όλο το φάσμα των γνωστικών εργασιών που μπορεί να χειριστεί ο ανθρώπινος εγκέφαλος, συμπεριλαμβανομένης της γενίκευσης από τη μια εργασία στην άλλη, την αφηρημένη συλλογιστική, τον προγραμματισμό και επιλέγοντας από ποιες πτυχές του κόσμου να ερευνήσετε και να μάθετε;
Μεγαλύτερα chatbots τεχνητής νοημοσύνης είναι πιο διατεθειμένα να εκτοξεύουν ανοησίες – και οι άνθρωποι δεν αντιλαμβάνονται πάντα
Μια τέτοια «τεχνητή γενική νοημοσύνη» ή AGI, θα μπορούσε να αντιμετωπίσει ακανθώδη προβλήματα, όπως η κλιματική αλλαγή, οι πανδημίες και οι θεραπείες για τον καρκίνο, το Αλτσχάιμερ και άλλες ασθένειες. Αλλά μια τέτοια τεράστια δύναμη θα έφερνε επίσης αβεβαιότητα – και θα εγκυμονούσε κινδύνους για την ανθρωπότητα. «Κακά πράγματα θα μπορούσαν να συμβούν είτε λόγω της κακής χρήσης της τεχνητής νοημοσύνης είτε επειδή χάνουμε τον έλεγχό της», λέει ο Yoshua Bengio, ερευνητής βαθιάς μάθησης στο Πανεπιστήμιο του Μόντρεαλ του Καναδά.
Η επανάσταση στα LLMs τα τελευταία χρόνια έχει προκαλέσει εικασίες ότι το AGI μπορεί να είναι δελεαστικά κοντά. Ωστόσο, δεδομένου του τρόπου κατασκευής και εκπαίδευσης των LLMs, δεν θα επαρκούν για να φτάσουν στο AGI μόνοι τους, λένε ορισμένοι ερευνητές. «Υπάρχουν ακόμα μερικά κομμάτια που λείπουν», λέει ο Bengio.
Αυτό που είναι ξεκάθαρο είναι ότι οι ερωτήσεις σχετικά με το AGI είναι πλέον πιο επίκαιρες από ποτέ. «Το μεγαλύτερο μέρος της ζωής μου, πίστευα ότι οι άνθρωποι που μιλούν για το AGI είναι κακομαθημένοι», λέει ο Subbarao Kambhampati, επιστήμονας υπολογιστών στο Πολιτειακό Πανεπιστήμιο της Αριζόνα στο Tempe. «Τώρα, φυσικά, όλοι μιλούν για αυτό. Δεν μπορείς να πεις ότι όλοι είναι τσαμπουκά».
Γιατί άλλαξε η συζήτηση AGI
Η φράση τεχνητή γενική νοημοσύνη μπήκε στο zeitgeist γύρω στο 2007 μετά την αναφορά της σε ένα ομώνυμο βιβλίο που επιμελήθηκαν οι ερευνητές της τεχνητής νοημοσύνης Ben Goertzel και Cassio Pennachin. Το ακριβές νόημά του παραμένει ασαφές, αλλά αναφέρεται σε ένα σύστημα τεχνητής νοημοσύνης με ανθρώπινες συλλογιστικές και γενίκευση ικανότητες. Εκτός από τους ασαφείς ορισμούς, για το μεγαλύτερο μέρος της ιστορίας της τεχνητής νοημοσύνης, ήταν ξεκάθαρο ότι δεν έχουμε φτάσει ακόμη στο AGI. Πάρτε το AlphaGo, το πρόγραμμα AI που δημιουργήθηκε από το Google DeepMind για να παίξετε το επιτραπέζιο παιχνίδι Go. Κερδίζει τους καλύτερους ανθρώπινους παίκτες στον κόσμο στο παιχνίδι — αλλά οι υπεράνθρωπες ιδιότητές του είναι περιορισμένες, γιατί αυτό είναι το μόνο που μπορεί να κάνει.
Οι νέες δυνατότητες των LLM έχουν αλλάξει ριζικά το τοπίο. Όπως και ο ανθρώπινος εγκέφαλος, τα LLM έχουν ένα εύρος ικανοτήτων που έχουν κάνει ορισμένους ερευνητές να εξετάσουν σοβαρά την ιδέα ότι κάποια μορφή AGI μπορεί να είναι επικείμενη1ή ακόμη και ήδη εδώ.
Αυτό το εύρος των δυνατοτήτων είναι ιδιαίτερα εκπληκτικό αν σκεφτεί κανείς ότι οι ερευνητές κατανοούν μόνο εν μέρει πώς το επιτυγχάνουν οι LLM. Ένα LLM είναι ένα νευρωνικό δίκτυο, ένα μοντέλο μηχανικής μάθησης που εμπνέεται χαλαρά από τον εγκέφαλο. το δίκτυο αποτελείται από τεχνητούς νευρώνες ή υπολογιστικές μονάδες, διατεταγμένες σε επίπεδα, με ρυθμιζόμενες παραμέτρους που υποδηλώνουν την ισχύ των συνδέσεων μεταξύ των νευρώνων. Κατά τη διάρκεια της εκπαίδευσης, οι πιο ισχυροί LLMs — όπως o1, Claude (κατασκευάστηκε από την Anthropic στο Σαν Φρανσίσκο) και οι Gemini της Google — βασίζονται σε μια μέθοδο που ονομάζεται next token prediction, στην οποία ένα μοντέλο τροφοδοτείται επανειλημμένα με δείγματα κειμένου που έχει τεμαχιστεί σε κομμάτια γνωστά ως μάρκες. Αυτά τα διακριτικά θα μπορούσαν να είναι ολόκληρες λέξεις ή απλώς ένα σύνολο χαρακτήρων. Το τελευταίο διακριτικό σε μια ακολουθία κρύβεται ή «μασκάρεται» και το μοντέλο καλείται να το προβλέψει. Στη συνέχεια, ο αλγόριθμος εκπαίδευσης συγκρίνει την πρόβλεψη με το καλυμμένο διακριτικό και προσαρμόζει τις παραμέτρους του μοντέλου για να του επιτρέψει να κάνει καλύτερη πρόβλεψη την επόμενη φορά.
Πώς η τεχνητή νοημοσύνη αναδιαμορφώνει την επιστήμη και την κοινωνία
Η διαδικασία συνεχίζεται – συνήθως χρησιμοποιώντας δισεκατομμύρια θραύσματα γλώσσας, επιστημονικού κειμένου και κώδικα προγραμματισμού – έως ότου το μοντέλο μπορεί να προβλέψει αξιόπιστα τα καλυμμένα διακριτικά. Σε αυτό το στάδιο, οι παράμετροι του μοντέλου έχουν αποτυπώσει τη στατιστική δομή των δεδομένων εκπαίδευσης και τη γνώση που περιέχεται σε αυτά. Στη συνέχεια, οι παράμετροι διορθώνονται και το μοντέλο τις χρησιμοποιεί για να προβλέψει νέα διακριτικά όταν δίνονται νέα ερωτήματα ή «προτροπές» που δεν υπήρχαν απαραίτητα στα δεδομένα εκπαίδευσης, μια διαδικασία γνωστή ως συμπέρασμα.
Η χρήση ενός τύπου αρχιτεκτονικής νευρωνικών δικτύων που είναι γνωστός ως μετασχηματιστής έχει κάνει τα LLM πολύ πέρα από τα προηγούμενα επιτεύγματα. Ο μετασχηματιστής επιτρέπει σε ένα μοντέλο να μάθει ότι ορισμένα διακριτικά έχουν ιδιαίτερα ισχυρή επιρροή σε άλλα, ακόμα κι αν είναι ευρέως διαχωρισμένα σε ένα δείγμα κειμένου. Αυτό επιτρέπει στα LLM να αναλύουν τη γλώσσα με τρόπους που φαίνεται να μιμούνται τον τρόπο που το κάνουν οι άνθρωποι — για παράδειγμα, διαφοροποιώντας τις δύο έννοιες της λέξης «όχθη» σε αυτήν την πρόταση: «Όταν η όχθη του ποταμού πλημμύρισε, το νερό κατέστρεψε το ΑΤΜ της τράπεζας, κάνοντας είναι αδύνατη η ανάληψη χρημάτων».
Αυτή η προσέγγιση έχει αποδειχθεί εξαιρετικά επιτυχημένη σε ένα ευρύ φάσμα πλαισίων, συμπεριλαμβανομένης της δημιουργίας προγραμμάτων υπολογιστή για την επίλυση προβλημάτων που περιγράφονται στη φυσική γλώσσα, της σύνοψης ακαδημαϊκών άρθρων και της απάντησης σε ερωτήσεις μαθηματικών.
Και άλλες νέες δυνατότητες έχουν προκύψει στην πορεία, ειδικά καθώς τα LLM έχουν αυξηθεί σε μέγεθος, αυξάνοντας την πιθανότητα ότι το AGI, επίσης, θα μπορούσε απλώς να εμφανιστεί εάν τα LLM γίνουν αρκετά μεγάλα. Ένα παράδειγμα είναι η προτροπή αλυσίδας σκέψης (CoT). Αυτό περιλαμβάνει την εμφάνιση ενός παραδείγματος σε ένα LLM για το πώς να αναλύσετε ένα πρόβλημα σε μικρότερα βήματα για να το λύσετε ή απλά να ζητήσετε από το LLM να λύσει ένα πρόβλημα βήμα προς βήμα. Η προτροπή CoT μπορεί να οδηγήσει τους LLMs να απαντήσουν σωστά σε ερωτήσεις που προηγουμένως τους αφόρησαν. Αλλά η διαδικασία δεν λειτουργεί πολύ καλά με μικρά LLM.
Τα όρια των LLM
Η προτροπή CoT έχει ενσωματωθεί στη λειτουργία του o1, σύμφωνα με το OpenAI, και αποτελεί τη βάση της ανδρείας του μοντέλου. Ο Francois Chollet, ο οποίος ήταν ερευνητής τεχνητής νοημοσύνης στην Google στο Mountain View της Καλιφόρνια, και έφυγε τον Νοέμβριο για να ξεκινήσει μια νέα εταιρεία, πιστεύει ότι το μοντέλο ενσωματώνει μια γεννήτρια CoT που δημιουργεί πολλές προτροπές CoT για ένα ερώτημα χρήστη και έναν μηχανισμό επιλογής ενός καλού προτροπή από τις επιλογές. Κατά τη διάρκεια της εκπαίδευσης, το o1 διδάσκεται όχι μόνο να προβλέπει το επόμενο διακριτικό, αλλά και να επιλέγει την καλύτερη προτροπή CoT για ένα δεδομένο ερώτημα. Η προσθήκη του συλλογισμού CoT εξηγεί γιατί, για παράδειγμα, o1-preview — η προηγμένη έκδοση του o1 — έλυσε σωστά το 83% των προβλημάτων σε προκριματικές εξετάσεις για τη Διεθνή Μαθηματική Ολυμπιάδα, έναν διάσημο διαγωνισμό μαθηματικών για μαθητές γυμνασίου, σύμφωνα με το OpenAI. Αυτό συγκρίνεται με βαθμολογία μόλις 13% για το προηγούμενο ισχυρότερο LLM της εταιρείας, το GPT-4o.
Στην τεχνητή νοημοσύνη, το μεγαλύτερο είναι πάντα καλύτερο;
Όμως, παρά την τόσο πολυπλοκότητα, το o1 έχει τους περιορισμούς του και δεν αποτελεί AGI, λένε οι Kambhampati και Chollet. Σε εργασίες που απαιτούν προγραμματισμό, για παράδειγμα, η ομάδα του Kambhampati έδειξε ότι παρόλο που το o1 αποδίδει θαυμάσια σε εργασίες που απαιτούν έως και 16 βήματα προγραμματισμού, η απόδοσή του υποβαθμίζεται γρήγορα όταν ο αριθμός των βημάτων αυξάνεται μεταξύ 20 και 402. Σολέτα είδε παρόμοιους περιορισμούς όταν αμφισβήτησε το o1-preview με ένα τεστ αφηρημένου συλλογισμού και γενίκευσης που σχεδίασε για να μετρήσει την πρόοδο προς το AGI. Το τεστ έχει τη μορφή οπτικών παζλ. Η επίλυσή τους απαιτεί την εξέταση παραδειγμάτων για την εξαγωγή ενός αφηρημένου κανόνα και τη χρήση αυτού για την επίλυση νέων περιπτώσεων ενός παρόμοιου παζλ, κάτι που οι άνθρωποι κάνουν με σχετική ευκολία.
Τα LLM, λέει ο Chollet, ανεξάρτητα από το μέγεθός τους, είναι περιορισμένα στην ικανότητά τους να επιλύουν προβλήματα που απαιτούν επανασυνδυασμό των όσων έχουν μάθει για να αντιμετωπίσουν νέες εργασίες. «Οι LLM δεν μπορούν πραγματικά να προσαρμοστούν στην καινοτομία επειδή δεν έχουν την ικανότητα να λάβουν βασικά τις γνώσεις τους και στη συνέχεια να κάνουν έναν αρκετά περίπλοκο ανασυνδυασμό αυτής της γνώσης εν κινήσει για να προσαρμοστούν στο νέο πλαίσιο».
Μπορούν τα LLM να παραδώσουν AGI;
Λοιπόν, θα παραδώσουν ποτέ τα LLM AGI; Ένα σημείο υπέρ τους είναι ότι η υποκείμενη αρχιτεκτονική του μετασχηματιστή μπορεί να επεξεργάζεται και να βρίσκει στατιστικά μοτίβα σε άλλους τύπους πληροφοριών εκτός από κείμενο, όπως εικόνες και ήχος, υπό την προϋπόθεση ότι υπάρχει ένας τρόπος για την κατάλληλη συμβολή αυτών των δεδομένων. Ο Andrew Wilson, ο οποίος σπουδάζει μηχανική μάθηση στο Πανεπιστήμιο της Νέας Υόρκης, και οι συνάδελφοί του έδειξαν ότι αυτό μπορεί να οφείλεται στο ότι όλοι οι διαφορετικοί τύποι δεδομένων μοιράζονται ένα χαρακτηριστικό: τέτοια σύνολα δεδομένων έχουν χαμηλή «πολυπλοκότητα Kolmogorov», που ορίζεται ως το μήκος το συντομότερο πρόγραμμα υπολογιστή που απαιτείται για τη δημιουργία τους3. Οι ερευνητές έδειξαν επίσης ότι οι μετασχηματιστές είναι κατάλληλοι για την εκμάθηση μοτίβων σε δεδομένα με χαμηλή πολυπλοκότητα Kolmogorov και ότι αυτή η καταλληλότητα αυξάνεται με το μέγεθος του μοντέλου. Οι μετασχηματιστές έχουν την ικανότητα να μοντελοποιούν ένα ευρύ φάσμα δυνατοτήτων, αυξάνοντας την πιθανότητα ο αλγόριθμος εκπαίδευσης να ανακαλύψει μια κατάλληλη λύση σε ένα πρόβλημα, και αυτή η «εκφραστικότητα» αυξάνεται με το μέγεθος. Αυτά είναι, λέει ο Wilson, «μερικά από τα συστατικά που χρειαζόμαστε πραγματικά για την καθολική μάθηση». Αν και ο Wilson πιστεύει ότι το AGI δεν είναι προσβάσιμο επί του παρόντος, λέει ότι τα LLM και άλλα συστήματα τεχνητής νοημοσύνης που χρησιμοποιούν την αρχιτεκτονική του μετασχηματιστή έχουν μερικές από τις βασικές ιδιότητες της συμπεριφοράς που μοιάζει με AGI.
Μπορεί η τεχνητή νοημοσύνη να αναθεωρήσει την επιστημονική βιβλιογραφία — και να καταλάβει τι σημαίνει όλο αυτό;
Ωστόσο, υπάρχουν επίσης ενδείξεις ότι τα LLM που βασίζονται σε μετασχηματιστές έχουν όρια. Για αρχή, τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση των μοντέλων εξαντλούνται. Ερευνητές στο Epoch AI, ένα ινστιτούτο στο Σαν Φρανσίσκο που μελετά τις τάσεις στην τεχνητή νοημοσύνη, εκτιμούν4 ότι το υπάρχον απόθεμα δημοσίως διαθέσιμων δεδομένων κειμένου που χρησιμοποιούνται για εκπαίδευση μπορεί να εξαντληθεί κάπου μεταξύ 2026 και 2032. Υπάρχουν επίσης ενδείξεις ότι τα κέρδη που αποκομίζουν οι LLM καθώς μεγαλώνουν δεν είναι τόσο μεγάλα όσο παλιά, αν και δεν είναι σαφές εάν Αυτό σχετίζεται με την ύπαρξη λιγότερης καινοτομίας στα δεδομένα επειδή έχουν χρησιμοποιηθεί τόσα πολλά, ή κάτι άλλο. Το τελευταίο θα προοιωνόταν άσχημα για τα LLMs.
Η Raia Hadsell, αντιπρόεδρος έρευνας στο Google DeepMind στο Λονδίνο, εγείρει ένα άλλο πρόβλημα. Τα ισχυρά LLM που βασίζονται σε μετασχηματιστές εκπαιδεύονται να προβλέπουν το επόμενο διακριτικό, αλλά αυτή η μοναδική εστίαση, υποστηρίζει, είναι πολύ περιορισμένη για να παρέχει AGI. Η κατασκευή μοντέλων που παράγουν λύσεις ταυτόχρονα ή σε μεγάλα κομμάτια θα μπορούσε να μας φέρει πιο κοντά στο AGI, λέει. Οι αλγόριθμοι που θα μπορούσαν να βοηθήσουν στην κατασκευή τέτοιων μοντέλων λειτουργούν ήδη σε ορισμένα υπάρχοντα, μη LLM συστήματα, όπως το DALL-E του OpenAI, το οποίο παράγει ρεαλιστικές, μερικές φορές ασυνήθιστα, εικόνες ως απάντηση σε περιγραφές σε φυσική γλώσσα. Αλλά τους λείπει η ευρεία γκάμα δυνατοτήτων των LLMs.
Φτιάξε μου ένα παγκόσμιο μοντέλο
Η διαίσθηση για το ποιες ανακαλύψεις χρειάζονται για την πρόοδο στο AGI προέρχεται από νευροεπιστήμονες. Υποστηρίζουν ότι η νοημοσύνη μας είναι το αποτέλεσμα του εγκεφάλου που είναι σε θέση να οικοδομήσει ένα «παγκόσμιο μοντέλο», μια αναπαράσταση του περιβάλλοντός μας. Αυτό μπορεί να χρησιμοποιηθεί για να φανταστούμε διαφορετικούς τρόπους δράσης και να προβλέψουμε τις συνέπειές τους, και επομένως για να σχεδιάσουμε και να συλλογίσουμε. Μπορεί επίσης να χρησιμοποιηθεί για τη γενίκευση δεξιοτήτων που έχουν μάθει σε έναν τομέα σε νέες εργασίες προσομοιώνοντας διαφορετικά σενάρια.
VIA: Πηγή Άρθρου
Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια
Πατήστε Εδώ
Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.