ΑρχικήNewsΤο GSM-Symbolic To Replace GSM8K της Apple

Το GSM-Symbolic To Replace GSM8K της Apple


Πρόσφατη έρευνα από την Apple δείχνει ότι τα μοντέλα που έλαβαν υψηλή βαθμολογία στο σύνολο δεδομένων GSM8K μπορεί να μην είναι τόσο έξυπνα όσο φαίνονται.

Τα μεγάλα γλωσσικά μοντέλα (LLM) έχουν επαινεθεί ευρέως για τις φαινομενικά εντυπωσιακές συλλογιστικές τους ικανότητες. Μοντέλα από όπως η OpenAI, η και η Meta παρουσιάζονται συχνά ως ισχυρά εργαλεία ικανά να λύνουν σύνθετα προβλήματα, με δοκιμές όπως το σύνολο δεδομένων GSM8K να είναι ένα δημοφιλές σημείο αναφοράς για τη μέτρηση των συλλογιστικών τους δεξιοτήτων.

Ωστόσο, η έρευνα της Apple πρόκειται να αλλάξει το λεγόμενο αξιόπιστο σύστημα.

Τι είναι το σύνολο δεδομένων GSM8K;

Το σύνολο δεδομένων GSM8K (Grade School Math 8K) είναι ένα σημείο αναφοράς που χρησιμοποιείται για την αξιολόγηση των ικανοτήτων επίλυσης προβλημάτων και συλλογιστικών μοντέλων μεγάλων γλωσσών (LLM). Αποτελείται από περισσότερα από 8.000 προβλήματα μαθηματικών λέξεων σε επίπεδο δημοτικού σχολείου, τα οποία συνήθως απαιτούν αριθμητική, λογική συλλογιστική και δεξιότητες επίλυσης προβλημάτων πολλαπλών βημάτων για να καταλήξουμε στη σωστή απάντηση.

Το σύνολο δεδομένων GSM8K αποτελείται από:

  • Μαθηματικά Δημοτικού Σχολείου: Τα προβλήματα έχουν σχεδιαστεί για να μιμούνται τον τύπο των ερωτήσεων που μπορεί να συναντήσει ένας μαθητής της 1ης-8ης τάξης, όπως βασική αριθμητική, γεωμετρία, άλγεβρα και λογικά παζλ.
  • Προβλήματα λέξεων: Κάθε ερώτηση παρουσιάζεται σε μορφή λέξεων προβλήματος, απαιτώντας από το μοντέλο να ερμηνεύσει το πρόβλημα, να προσδιορίσει τους σχετικούς αριθμούς και πράξεις και να λύσει την εξίσωση.
  • Χρησιμοποιείται για αξιολόγηση LLM: Το σύνολο δεδομένων χρησιμοποιείται συχνά ως δοκιμή για να διαπιστωθεί πόσο καλά μοντέλα γλώσσας όπως το GPT του OpenAI, τα μοντέλα της Google ή το LLaMA της Meta μπορούν να χειριστούν συλλογιστικές εργασίες πέρα από την απλή πρόβλεψη κειμένου.
  • Συλλογισμός πολλαπλών βημάτων: Τα προβλήματα απαιτούν πολλά βήματα για να λυθούν, δοκιμάζοντας την ικανότητα του μοντέλου να παρακολουθεί περίπλοκες ακολουθίες συλλογισμών, αντί να παράγει απλώς μια απάντηση ενός βήματος.

Το σύνολο δεδομένων GSM8K έχει γίνει ένα δημοφιλές εργαλείο για την αξιολόγηση του εάν τα LLM μπορούν να συλλογιστούν λογικά και να λύσουν προβλήματα του πραγματικού κόσμου. Ωστόσο, υπάρχει ανησυχία ότι πολλά μοντέλα τεχνητής νοημοσύνης αποδίδουν καλά σε αυτό το σύνολο δεδομένων μέσω αντιστοίχισης προτύπων και όχι αληθινών συλλογισμών, καθώς μπορεί να είχαν εκτεθεί σε παρόμοια προβλήματα κατά τη διάρκεια της εκπαίδευσης.

Το σύνολο δεδομένων GSM8K περιέχει πάνω από 8.000 προβλήματα μαθηματικών λέξεων σε επίπεδο σχολείου

Οι περιορισμοί των LLM του συνόλου δεδομένων GSM8K

Οι ερευνητές της Apple υποστηρίζουν ότι αυτή η επιτυχία μπορεί να αφορά περισσότερο την εκλεπτυσμένη αντιστοίχιση προτύπων παρά με γνήσιο λογικό συλλογισμό. Δεδομένου ότι το σύνολο δεδομένων GSM8K χρησιμοποιείται τόσο συχνά, υπάρχει κίνδυνος μόλυνσης των δεδομένων—που σημαίνει ότι πολλοί LLM μπορεί να έχουν ήδη δει αυτά τα προβλήματα κατά τη διάρκεια της εκπαίδευσης, διογκώνοντας τη φαινομενική ευφυΐα τους.

Για να το αντιμετωπίσει αυτό, η Apple ανέπτυξε ένα νέο σημείο αναφοράς που ονομάζεται GSM-Συμβολικό. Αυτή η δοκιμή διατηρεί τα βασικά συλλογιστικά στοιχεία του συνόλου δεδομένων GSM8K, αλλά εισάγει αλλαγές όπως διαφορετικά ονόματα, αριθμούς και πολυπλοκότητα, μαζί με άσχετες πληροφορίες.

Τα αποτελέσματα; Κάθε LLM που δοκιμάστηκε, συμπεριλαμβανομένων μοντέλων όπως το GPT-4 του OpenAI και το Llama 3 του Meta, σημείωσε σημαντική πτώση στην απόδοση όταν αντιμετώπισε αυτή τη νέα πρόκληση. Αυτό υποδηλώνει ότι Οι LLM αγωνίζονται με την αληθινή λογική όταν οι μεταβλητές αλλάζουναμφισβητώντας περαιτέρω τις πραγματικές τους δεξιότητες επίλυσης προβλημάτων.

Γιατί οι LLM αγωνίζονται;

Η μελέτη της Apple ρίχνει φως σε ένα κρίσιμο ελάττωμα στα LLM: Είναι άριστοι στον εντοπισμό προτύπων στα δεδομένα εκπαίδευσης, αλλά δεν έχουν αληθινό λογικό σκεπτικό. Για παράδειγμα, όταν τα μαθηματικά προβλήματα περιελάμβαναν άσχετες λεπτομέρειες, όπως το μέγεθος των ακτινιδίων σε ένα σενάριο συλλογής φρούτων, πολλά LLM αφαίρεσαν αυτήν την άσχετη λεπτομέρεια από την εξίσωση, αποδεικνύοντας την αδυναμία να διακρίνουν ποιες πληροφορίες ήταν απαραίτητες για την επίλυση του προβλήματος.

Σε δοκιμές με το τα LLM όπως τα μοντέλα του OpenAI είχαν καλύτερες επιδόσεις από τα αντίστοιχα ανοιχτού κώδικα, αλλά η πτώση της ακρίβειας όταν προστέθηκαν άσχετες πληροφορίες υποδηλώνει ότι αυτά τα συστήματα απέχουν πολύ από το να επιτύχουν γνήσια νοημοσύνη. Αυτό έχει βαθιές επιπτώσεις για τη μελλοντική ανάπτυξη της τεχνητής νοημοσύνης, δείχνοντας ότι, ενώ τα LLMs μπορεί να μιμούνται τη νοημοσύνη, εξακολουθούν να αγωνίζονται να κατανοήσουν πραγματικά το πλαίσιο.

GSM8K σύνολο δεδομένων Apple έρευνα GSM-Symbolic
Η έρευνα της Apple δείχνει ότι οι LLM αγωνίζονται με την αληθινή λογική, συχνά μπερδεύονται από άσχετες λεπτομέρειες στα μαθηματικά προβλήματα

Πιο έξυπνο ή απλώς καλύτερο στο να φαίνεσαι έξυπνος;

Η έρευνα της Apple υπογραμμίζει τους περιορισμούς του να βασίζεσαι σε δείκτες αναφοράς όπως το σύνολο δεδομένων GSM8K για την αξιολόγηση της νοημοσύνης AI. Ενώ αυτά τα τεστ μπορούν να μετρήσουν την αναγνώριση προτύπων, δεν καταγράφουν πάντα τις αποχρώσεις του αληθινού λογικού συλλογισμού. Η εισαγωγή του σημείου αναφοράς GSM-Symbolic παρέχει μια πιο αυστηρή δοκιμή της ικανότητας ενός AI να χειρίζεται άγνωστες μεταβλητές και άσχετες πληροφορίες—δεξιότητες απαραίτητες για την επίλυση προβλημάτων στον πραγματικό κόσμο.

Ο Sam Altman, Διευθύνων Σύμβουλος του OpenAI, έχει μάλιστα αναγνωρίσει αυτές τις προκλήσεις, αναφερόμενος στα τρέχοντα LLM ως “απίστευτα χαζός” παρά την εντυπωσιακή εξωτερική τους εμφάνιση σε μια αποκλειστική συνέντευξη MIT Technology Review. Το πραγματικό τεστ για τα μελλοντικά LLM θα είναι η ικανότητά τους να υπερβαίνουν την αναγνώριση προτύπων και να αναπτύσσουν πιο ισχυρές ικανότητες επίλυσης προβλημάτων.

Τα ευρήματα από τη μελέτη της Apple προσφέρουν μια απογοητευτική προοπτική για την τρέχουσα κατάσταση των LLM. Ενώ μοντέλα που έχουν εκπαιδευτεί σε σύνολα δεδομένων όπως GSM8K μπορεί να αποδίδουν καλά σε ελεγχόμενα περιβάλλοντα, οι συλλογιστικές τους ικανότητες παραπαίουν όταν δοκιμάζονται σε πιο περίπλοκα προβλήματα του πραγματικού κόσμου. Αυτό υπογραμμίζει τη σημασία της περαιτέρω έρευνας και ανάπτυξης για να διασφαλιστεί ότι τα μοντέλα τεχνητής νοημοσύνης ξεπερνούν την ευφυΐα σε επίπεδο επιφάνειας και αναπτύσσουν αληθινές δεξιότητες λογικής συλλογιστικής.

Προς το παρόνείναι σημαντικό να μετριαστεί ο ενθουσιασμός γύρω από την τεχνητή νοημοσύνη με υγιή σκεπτικισμό, εστιάζοντας σε ασφαλέστερα, εξυπνότερα συστήματα τεχνητής νοημοσύνης που μπορούν να χειριστούν περισσότερα από την απλή αναγνώριση προτύπων.


Πιστώσεις εικόνας: DC Studio/Freepik



VIA: DataConomy.com

Dimitris Marizas
Dimitris Marizashttps://www.cybervista.gr
Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.