Κυριακή, 29 Σεπτεμβρίου, 2024
ΑρχικήSales EventsΗ άφιξη του πράκτορα με το μοντέλο δράσης 'large action' του Rabbit...

Η άφιξη του πράκτορα με το μοντέλο δράσης ‘large action’ του Rabbit στο r1


Το Rabbit r1 ήταν το απαραίτητο gadget στις αρχές του 2024, αλλά το ρουζ έπεσε πολύ γρήγορα όταν οι εκτεταμένες υποσχέσεις της εταιρείας απέτυχαν να υλοποιηθούν. Ο Διευθύνων Σύμβουλος Jesse Lyu παραδέχεται ότι «την πρώτη μέρα, θέσαμε τις προσδοκίες μας πολύ υψηλές» — αλλά ότι μια ενημέρωση που έρχεται στις συσκευές της αυτόν τον μήνα θα απελευθερώσει επιτέλους το περίφημο Large Action Model τους στον Ιστό.

Αν και οι σκεπτικιστές μπορεί (δικαιολογημένα) να το βλέπουν αυτό ως πολύ λίγο, πολύ αργά ή μια άλλη αλλαγή των στόχων, η φιλοδοξία του Rabbit να δημιουργήσει έναν αγνωστικιστή για εφαρμογές ιστού και για κινητές συσκευές εξακολουθεί να έχει θεμελιώδη – αν και σε μεγάλο βαθμό θεωρητική – αξία.

Μιλώντας στο TechCrunch, ο Lyu είπε ότι οι τελευταίοι έξι μήνες ήταν ένας ανεμοστρόβιλος αποστολής, επιδιορθώσεων σφαλμάτων, βελτίωσης των χρόνων απόκρισης και προσθήκης δευτερευουσών λειτουργιών. Ωστόσο, παρά τις 16 over-the-air ενημερώσεις στο r1, παραμένει ουσιαστικά περιορισμένος στην αλληλεπίδραση με ένα LLM ή στην πρόσβαση σε μία από τις 7 συγκεκριμένες υπηρεσίες, όπως το Uber και το Spotify.

«Αυτή ήταν η πρώτη έκδοση του LAM, εκπαιδευμένη σε ηχογραφήσεις που συλλέγονται από εργάτες δεδομένων, αλλά δεν είναι γενική – συνδέεται μόνο με αυτές τις υπηρεσίες», είπε. Το αν ήταν ή όχι αυτό που αποκαλούν το LAM είναι σχεδόν ακαδημαϊκό σε αυτό το σημείο – όποιο κι αν ήταν το μοντέλο, δεν παρείχε τις δυνατότητες που περιγράφει το Rabbit στο ντεμπούτο του.

Ένας γενικός πράκτορας που βασίζεται στο διαδίκτυο

Αλλά το Rabbit είναι έτοιμο να κυκλοφορήσει την πρώτη γενική, που σημαίνει ότι δεν είναι συγκεκριμένη για καμία εφαρμογή ή διεπαφή, έκδοση του LAM, την οποία έδειξε ο Lyu για μένα.

Αυτή η έκδοση είναι ένας πράκτορας που βασίζεται στον ιστό που εξηγεί τα βήματα για την εκτέλεση οποιασδήποτε συνηθισμένης εργασίας, όπως η αγορά εισιτηρίων για μια συναυλία, η εγγραφή ενός ιστότοπου ή ακόμα και η αναπαραγωγή ενός διαδικτυακού παιχνιδιού.

«Ο στόχος μας είναι πολύ σαφής: στα τέλη Σεπτεμβρίου, το r1 σας θα κάνει ξαφνικά πολλά περισσότερα πράγματα. Θα πρέπει να υποστηρίζει οτιδήποτε μπορείτε να κάνετε σε οποιονδήποτε ιστότοπο», είπε ο Lyu.

Με δεδομένη μια εργασία, πρώτα αναλύει αυτήν την εργασία σε βήματα και, στη συνέχεια, αρχίζει να τα εκτελεί αναλύοντας αυτό που βλέπει στην οθόνη: κουμπιά, πεδία, εικόνες, ανεξάρτητα από τη θέση ή την εμφάνιση. Στη συνέχεια αλληλεπιδρά με το κατάλληλο στοιχείο με βάση τα όσα έχει μάθει γενικά για τον τρόπο λειτουργίας των ιστοσελίδων.

Του ζήτησα (μέσω του Lyu, ο οποίος το λειτουργούσε εξ αποστάσεως) να εγγράψει έναν νέο ιστότοπο για ένα φεστιβάλ κινηματογράφου. Κάνοντας μια ενέργεια κάθε λίγα δευτερόλεπτα, έψαχνε για μητρώα τομέα στο Google, διάλεγε ένα (νομίζω με χορηγία), έβαλε το φεστιβάλ ταινιών στο πλαίσιο τομέα και από τη λίστα επιλογών που προέκυψε επέλεξε το “filmfestival2023.com” για 14 $. Τεχνικά δεν του είχα δώσει περιορισμούς όπως «για το 2025» ή «φεστιβάλ τρόμου» ή οτιδήποτε άλλο.

Ομοίως, όταν ο Lyu του ζήτησε να ψάξει και να αγοράσει ένα r1, βρήκε γρήγορα τον δρόμο του στο eBay, όπου δεκάδες πωλούνταν. Ίσως ένα καλό αποτέλεσμα για έναν χρήστη αλλά όχι για τον ιδρυτή της εταιρείας που παρουσιάζει στον Τύπο! Το γέλασε και έκανε ξανά την προτροπή με την προσθήκη ότι πρέπει να αγοράσει μόνο από τον επίσημο ιστότοπο. Ο πράκτορας πέτυχε.

Στη συνέχεια, το έβαλε να παίζει το καθημερινό παιχνίδι λέξεων του Dictionary.com. Χρειάστηκε λίγη έγκαιρη μηχανική (το μοντέλο ανακάλυψε ότι μπορούσε να τελειώσει γρήγορα πατώντας “end game”) αλλά τα κατάφερε.

Ποιον πρόγραμμα περιήγησης χρησιμοποιεί, όμως; Ένα φρέσκο, καθαρό στο cloud, είπε ο Lyu, αλλά εργάζονται σε τοπικές εκδόσεις, όπως μια επέκταση Chrome, αυτό σημαίνει ότι μπορείτε να χρησιμοποιήσετε τις υπάρχουσες περιόδους σύνδεσης και δεν θα χρειάζεται να συνδεθείτε στις υπηρεσίες σας.

Για το σκοπό αυτό, καθώς οι χρήστες είναι κατανοητό (και δικαίως) επιφυλακτικοί σχετικά με την παροχή πλήρους πρόσβασης σε οποιαδήποτε εταιρεία στα διαπιστευτήριά τους, ο πράκτορας δεν είναι εξοπλισμένος με αυτά. Ο Lyu πρότεινε ότι στο μέλλον θα μπορούσε να γίνει ιδιωτική επίκληση ενός μοντέλου μικρής γλώσσας με περιορισμένο τοίχο με τα διαπιστευτήριά σας για την εκτέλεση συνδέσεων. Φαίνεται να είναι ανοιχτό το ερώτημα πώς θα λειτουργήσει αυτό, κάτι που είναι κάπως αναμενόμενο δεδομένης της καινοτομίας του χώρου.

Ακόμα μαθαίνω

Ένα παράδειγμα ανάλυσης διεπαφής χρήστη μέσα σε εφαρμογές από τον ιστότοπο Rabbit.
Συντελεστές εικόνας: Κουνέλι

Το μου έδειξε μερικά πράγματα. Πρώτον, αν δώσουμε στην εταιρεία και στους προγραμματιστές της το πλεονέκτημα της αμφιβολίας ότι δεν πρόκειται για μια περίτεχνη φάρσα (όπως πιστεύουν ορισμένοι), φαίνεται ότι είναι ένας λειτουργικός, γενικής χρήσης agent. Και αυτό θα ήταν, αν όχι το πρώτο από μόνο του, σίγουρα το πρώτο που θα ήταν εύκολα προσβάσιμο στους καταναλωτές.

“Υπάρχουν εταιρείες που κάνουν κάθετες εργασίες, για Excel ή νομικά έγγραφα, αλλά πιστεύω ότι αυτός είναι ένας από τους πρώτους γενικούς πράκτορες για τους καταναλωτές”, δήλωσε ο Lyu. «Η ιδέα είναι ότι μπορείτε να πείτε οτιδήποτε μπορεί να επιτευχθεί μέσω ενός ιστότοπου. Θα έχουμε πρώτα τον γενικό παράγοντα για ιστότοπους και μετά για εφαρμογές.»

Δεύτερον, έδειξε ότι η άμεση μηχανική είναι ακόμα πολύ απαραίτητη. Ο τρόπος με τον οποίο διατυπώνετε ένα αίτημα μπορεί εύκολα να είναι η διαφορά μεταξύ επιτυχίας και αποτυχίας, και αυτό μάλλον δεν είναι κάτι που οι απλοί καταναλωτές θα ανεχθούν.

Ο Lyu προειδοποίησε ότι αυτή είναι μια “έκδοση παιδικής χαράς”, όχι τελική σε καμία περίπτωση, και ότι, παρόλο που είναι ένας πλήρως λειτουργικός γενικός πράκτορας ιστού, εξακολουθεί να μπορεί να βελτιωθεί με πολλούς τρόπους. Για παράδειγμα, είπε, «το μοντέλο είναι αρκετά έξυπνο για να κάνει τον προγραμματισμό, αλλά δεν είναι αρκετά έξυπνο για να παρακάμψει βήματα». Δεν θα «μάθαινε» ότι ένας χρήστης προτιμά να μην αγοράζει τα ηλεκτρονικά του στο eBay ή ότι θα πρέπει να κάνει κύλιση προς τα κάτω μετά την αναζήτηση για να αποφύγει τον τοίχο των χορηγούμενων αποτελεσμάτων.

Τα δεδομένα χρήστη δεν θα συλλεχθούν για τη βελτίωση του μοντέλου… ακόμα. Ο Lyu το απέδωσε στο γεγονός ότι ουσιαστικά δεν υπάρχει μέθοδος αξιολόγησης για ένα σύστημα όπως αυτό, επομένως είναι δύσκολο να πούμε ποσοτικά εάν έχουν γίνει βελτιώσεις. Έρχεται επίσης μια “λειτουργία διδασκαλίας”, ωστόσο, ώστε να μπορείτε να της δείξετε πώς να κάνει έναν συγκεκριμένο τύπο εργασίας.

Είναι ενδιαφέρον ότι η εταιρεία εργάζεται επίσης σε έναν πράκτορα επιτραπέζιου υπολογιστή που μπορεί να αλληλεπιδρά με εφαρμογές όπως επεξεργαστές κειμένου, προγράμματα αναπαραγωγής μουσικής και φυσικά προγράμματα περιήγησης. Αυτό είναι ακόμα στα αρχικά στάδια, αλλά λειτουργεί. «Δεν χρειάζεται καν να εισάγετε έναν προορισμό, απλώς προσπαθεί να χρησιμοποιήσει τον υπολογιστή. Εφόσον υπάρχει μια διεπαφή, μπορεί να την ελέγξει.”

Τρίτον, δεν υπάρχει ακόμα «εφαρμογή δολοφόνος», ή τουλάχιστον δεν υπάρχει προφανής. Ο πράκτορας είναι εντυπωσιακός, αλλά προσωπικά θα το χρησιμοποιούσα ελάχιστα, καθώς δυστυχώς κάθομαι μπροστά σε ένα πρόγραμμα περιήγησης για 8 ώρες την ημέρα ούτως ή άλλως. Υπάρχουν σχεδόν σίγουρα μερικές εξαιρετικές εφαρμογές, αλλά καμία δεν μας ήρθε στο μυαλό που να κάνει τη χρησιμότητα ενός αυτόματου που βασίζεται σε πρόγραμμα περιήγησης τόσο προφανή όσο αυτή ενός, για παράδειγμα, ενός ρομπότ κενού.

Γιατί όχι πάλι μια εφαρμογή;

Το r1 σε χρήση. Μοντέλο χεριού: Chris Velazco της Washington Post.
Συντελεστές εικόνας: Devin Coldewey / TechCrunch

Έθεσα την κοινή αντίρρηση για ολόκληρο το επιχειρηματικό μοντέλο Rabbit, ουσιαστικά ότι «αυτό θα μπορούσε να είναι μια εφαρμογή».

Ο Lyu έχει ακούσει ξεκάθαρα αυτή την κριτική πολλές φορές και ήταν σίγουρος για την απάντησή του.

«Αν κάνεις τα μαθηματικά, δεν έχει νόημα», είπε. «Ναι, είναι τεχνικά εφικτό, αλλά θα τσαντίσετε την Apple και την Google από την πρώτη μέρα. Δεν θα αφήσουν ποτέ αυτό να είναι καλύτερο από το Siri ή το Gemini. Όπως δεν υπάρχει περίπτωση η Apple Intelligence να ελέγχει καλύτερα τα πράγματα της Google ή το αντίστροφο. Και παίρνουν το 30% των εσόδων! Αν στην αρχή φτιάχναμε απλώς μια εφαρμογή, δεν θα είχαμε ποτέ αυτή τη δυναμική.”

Το θεμελιώδες βήμα που κάνει το Rabbit είναι ότι μπορεί να υπάρχει μια τεχνητή νοημοσύνη ή μια συσκευή τρίτου μέρους που μπορεί να έχει πρόσβαση και να λειτουργεί σε όλες τις άλλες υπηρεσίες σας, και εκτός αυτών, όπως εσείς. «Ένα σύστημα πολλαπλών πλατφορμών, γενικό σύστημα αντιπροσώπων», όπως το ονόμασε ο Lyu. «Θα ελέγχουμε κάθε διεπαφή χρήστη και ο ιστότοπος είναι μια καλή αρχή. Μετά θα πάμε στα Windows, στο MacOS, στα τηλέφωνα».

Μιλώντας για αυτό: «Ποτέ δεν είπαμε ότι δεν θα κατασκευάσουμε ποτέ τηλέφωνο στο μέλλον». Δεν είναι αυτό αντίθετο με την αρχική τους θέση για μια μικρότερη, απλούστερη συσκευή; Ίσως, ίσως όχι.

Στο μεταξύ, εργάζονται για να αρχίσουν να εκπληρώνουν τις υποσχέσεις που έδωσαν στις αρχές του τρέχοντος έτους. Το νέο μοντέλο θα πρέπει να είναι διαθέσιμο σε οποιονδήποτε κάτοχο r1 κάποια στιγμή αυτή την εβδομάδα όταν κυκλοφορήσει η ενημέρωση OTA. Θα φτάσουν και οδηγίες για το πώς να το επικαλέσετε. Ο Lyu προειδοποίησε τους μελλοντικούς χρήστες με τη χαρακτηριστική του υποτίμηση.

«Θέτουμε σωστά τις προσδοκίες. Δεν είναι τέλειο», είπε. «Είναι απλώς ό,τι καλύτερο έχει πετύχει η ανθρώπινη φυλή μέχρι τώρα».

kicker: τηλέφωνο..;



VIA: techcrunch.com

Dimitris Marizas
Dimitris Marizashttps://www.cybervista.gr
Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

Recent Comments