Ποια AI εργαλεία παραμένουν υπερεκτιμημένα μετά από πραγματικές δοκιμές
Το χάσμα ανάμεσα σε ένα viral tech demo και ένα χρήσιμο εργαλείο γραφείου μεγαλώνει συνεχώς. Διανύουμε μια περίοδο όπου τα τμήματα marketing υπόσχονται μαγεία, ενώ οι χρήστες λαμβάνουν απλώς ένα εξελιγμένο autocomplete. Πολλοί περιμένουν από αυτά τα συστήματα να «σκέφτονται», αλλά στην πραγματικότητα απλώς προβλέπουν την επόμενη λέξη σε μια ακολουθία. Αυτή η παρεξήγηση οδηγεί σε απογοήτευση όταν ένα εργαλείο αποτυγχάνει στη βασική λογική ή επινοεί γεγονότα. Αν χρειάζεστε ένα εργαλείο 100% αξιόπιστο χωρίς ανθρώπινη επίβλεψη, αγνοήστε εντελώς το τρέχον κύμα των generative assistants. Δεν είναι έτοιμα για περιβάλλοντα υψηλών απαιτήσεων όπου η ακρίβεια είναι το μόνο που μετράει. Ωστόσο, αν η δουλειά σας περιλαμβάνει brainstorming ή προσχέδια, υπάρχει χρησιμότητα κρυμμένη κάτω από τον θόρυβο. Το βασικό συμπέρασμα είναι ότι υπερεκτιμούμε τη νοημοσύνη αυτών των εργαλείων, ενώ υποτιμούμε τον όγκο εργασίας που απαιτείται για να γίνουν χρήσιμα. Τα περισσότερα από όσα βλέπετε στα social media είναι μια προσεκτικά επιμελημένη παράσταση που καταρρέει υπό την πίεση μιας τυπικής εργάσιμης εβδομάδας.
Μηχανές πρόβλεψης με κοστούμι
Για να καταλάβετε γιατί τόσα εργαλεία μοιάζουν με απογοήτευση, πρέπει να καταλάβετε τι είναι πραγματικά. Πρόκειται για large language models. Είναι στατιστικές μηχανές εκπαιδευμένες σε τεράστια σύνολα δεδομένων ανθρώπινου κειμένου. Δεν έχουν έννοια αλήθειας, ηθικής ή φυσικής πραγματικότητας. Όταν κάνετε μια ερώτηση, το σύστημα αναζητά μοτίβα στα δεδομένα εκπαίδευσής του για να δημιουργήσει μια απάντηση που ακούγεται πειστική. Γι’ αυτό είναι τόσο καλά στην ποίηση αλλά τόσο κακά στα μαθηματικά. Μιμούνται το στυλ μιας σωστής απάντησης αντί να εκτελούν τη λογική που απαιτείται για να φτάσουν σε αυτήν. Αυτή η διάκριση είναι η πηγή της κοινής παρανόησης ότι το AI είναι search engine. Μια search engine βρίσκει υπάρχουσες πληροφορίες. Ένα LLM δημιουργεί μια νέα σειρά κειμένου βασισμένη στην πιθανότητα. Γι’ αυτό συμβαίνουν οι «ψευδαισθήσεις» (hallucinations). Το σύστημα απλώς κάνει αυτό για το οποίο κατασκευάστηκε: να συνεχίζει να μιλάει μέχρι να χτυπήσει ένα stop token.
Η τρέχουσα αγορά έχει πλημμυρίσει από wrappers. Πρόκειται για απλές εφαρμογές που χρησιμοποιούν ένα API από εταιρείες όπως η OpenAI ή η Anthropic, προσθέτοντας ένα custom interface. Πολλά από αυτά τα startups ισχυρίζονται ότι έχουν μοναδική τεχνολογία, αλλά συχνά είναι το ίδιο μοντέλο με διαφορετικό περιτύλιγμα. Πρέπει να είστε επιφυλακτικοί με κάθε εργαλείο που δεν εξηγεί την αρχιτεκτονική του. Υπάρχουν τρεις κύριοι τύποι εργαλείων που δοκιμάζονται αυτή τη στιγμή:
- Γεννήτριες κειμένου για emails και αναφορές που συχνά ακούγονται ρομποτικές.
- Δημιουργοί εικόνων που δυσκολεύονται με λεπτομέρειες όπως τα ανθρώπινα χέρια ή το κείμενο.
- Βοηθοί προγραμματισμού που γράφουν boilerplate κώδικα αλλά δυσκολεύονται με τη σύνθετη λογική.
Η πραγματικότητα είναι ότι αυτά τα εργαλεία πρέπει να αντιμετωπίζονται ως ασκούμενοι που έχουν διαβάσει όλα τα βιβλία του κόσμου, αλλά δεν έχουν ζήσει ποτέ σε αυτόν. Απαιτούν συνεχή έλεγχο και συγκεκριμένες οδηγίες για να παράγουν κάτι αξιόλογο. Αν περιμένετε να δουλέψουν αυτόνομα, θα απογοητεύεστε κάθε φορά.
Η παγκόσμια οικονομία του FOMO
Η πίεση για υιοθέτηση αυτών των εργαλείων δεν προέρχεται από την αποδεδειγμένη αποτελεσματικότητά τους. Προέρχεται από έναν παγκόσμιο φόβο ότι θα μείνουμε πίσω (FOMO). Μεγάλες εταιρείες ξοδεύουν δισεκατομμύρια σε άδειες επειδή φοβούνται ότι οι ανταγωνιστές τους θα βρουν ένα μυστικό πλεονέκτημα. Αυτό δημιούργησε μια περίεργη οικονομική στιγμή όπου η ζήτηση για AI είναι υψηλή, αλλά τα πραγματικά κέρδη στην παραγωγικότητα είναι δύσκολο να μετρηθούν. Σύμφωνα με έρευνες από οργανισμούς όπως το Gartner group, πολλές από αυτές τις τεχνολογίες βρίσκονται αυτή τη στιγμή στην κορύφωση των διογκωμένων προσδοκιών. Αυτό σημαίνει ότι μια περίοδος απογοήτευσης είναι αναπόφευκτη καθώς οι εταιρείες συνειδητοποιούν ότι η αντικατάσταση των ανθρώπων είναι πολύ πιο δύσκολη από ό,τι έλεγαν οι πωλητές. Ο αντίκτυπος γίνεται πιο αισθητός στις αναπτυσσόμενες οικονομίες, όπου το outsourcing ήταν κάποτε ο κύριος μοχλός ανάπτυξης. Τώρα, αυτές οι εργασίες αυτοματοποιούνται από AI χαμηλής ποιότητας, οδηγώντας σε έναν αγώνα δρόμου προς τα κάτω όσον αφορά την ποιότητα του περιεχομένου.
Βλέπουμε μια αλλαγή στον τρόπο που αξιολογείται η εργασία. Η ικανότητα να γράψεις ένα βασικό email δεν είναι πλέον μια εμπορεύσιμη δεξιότητα. Η αξία έχει μετατοπιστεί στην ικανότητα επαλήθευσης και επιμέλειας. Αυτό δημιουργεί ένα νέο είδος ψηφιακού χάσματος. Όσοι μπορούν να αντέξουν οικονομικά τα πιο ισχυρά μοντέλα και έχουν τις δεξιότητες να τα καθοδηγήσουν (prompting) αποτελεσματικά, θα προηγηθούν. Οι υπόλοιποι θα κολλήσουν χρησιμοποιώντας δωρεάν, κατώτερα μοντέλα που παράγουν γενικά και συχνά λανθασμένα αποτελέσματα. Αυτό δεν είναι απλώς ένα τεχνολογικό πρόβλημα. Είναι μια οικονομική αλλαγή που επηρεάζει τον τρόπο που εκπαιδεύουμε την επόμενη γενιά εργαζομένων. Αν βασιστούμε υπερβολικά σε αυτά τα συστήματα για εργασίες εισαγωγικού επιπέδου, μπορεί να χάσουμε την ανθρώπινη εμπειρία που απαιτείται για την επίβλεψη των συστημάτων στο μέλλον. Τα τελευταία benchmarks επιδόσεων AI στο [Insert Your AI Magazine Domain Here] δείχνουν ότι ενώ τα μοντέλα μεγαλώνουν, ο ρυθμός βελτίωσης στη συλλογιστική επιβραδύνεται. Αυτό υποδηλώνει ότι ίσως φτάνουμε σε ένα ταβάνι με την τρέχουσα προσέγγιση στο machine learning.
Μια Τρίτη αφιερωμένη στη διόρθωση της μηχανής
Σκεφτείτε την εμπειρία της Σάρας, μιας project manager σε μια μεσαία εταιρεία. Ξεκινά τη μέρα της ζητώντας από έναν AI βοηθό να συνοψίσει μια μακρά αλυσίδα emails από το προηγούμενο βράδυ. Το εργαλείο παρέχει μια καθαρή λίστα με bullet points. Φαίνεται τέλειο μέχρι που συνειδητοποιεί ότι έχασε εντελώς μια αλλαγή προθεσμίας που αναφερόταν στο τρίτο email. Αυτό είναι το κρυφό κόστος του AI. Η Σάρα κέρδισε πέντε λεπτά στην ανάγνωση, αλλά ξόδεψε δέκα λεπτά ελέγχοντας ξανά τη σύνοψη γιατί δεν εμπιστεύεται πλέον το εργαλείο. Αργότερα, προσπαθεί να χρησιμοποιήσει μια γεννήτρια εικόνων AI για να δημιουργήσει ένα απλό γράφημα για μια παρουσίαση. Το εργαλείο της δίνει ένα όμορφο γραφικό, αλλά οι αριθμοί στους άξονες είναι αλαμπουρνέζικα. Καταλήγει να ξοδεύει μια ώρα σε ένα παραδοσιακό πρόγραμμα σχεδίασης για να διορθώσει αυτό που υποτίθεται ότι θα ήταν μια εργασία δέκα δευτερολέπτων. Αυτή είναι η καθημερινή πραγματικότητα για πολλούς εργαζόμενους. Τα εργαλεία δίνουν ένα προβάδισμα, αλλά συχνά σε οδηγούν προς τη λάθος κατεύθυνση.
Το πρόβλημα είναι ότι αυτά τα εργαλεία είναι σχεδιασμένα να είναι σίγουρα, όχι σωστά. Θα σας δώσουν μια λάθος απάντηση με τον ίδιο τόνο αυθεντίας όπως μια σωστή. Αυτό δημιουργεί έναν «πνευματικό φόρο» στον χρήστη. Δεν μπορείς ποτέ να χαλαρώσεις πραγματικά όταν τα χρησιμοποιείς. Για έναν συγγραφέα, η χρήση AI για τη δημιουργία ενός πρώτου προσχεδίου συχνά μοιάζει με το να καθαρίζεις το χάος κάποιου άλλου. Συχνά είναι πιο γρήγορο να γράψεις το κείμενο από την αρχή παρά να αφαιρέσεις τα κλισέ και τις επαναλαμβανόμενες φράσεις που προτιμούν αυτά τα μοντέλα.
Το BotNews.today χρησιμοποιεί εργαλεία τεχνητής νοημοσύνης για την έρευνα, συγγραφή, επιμέλεια και μετάφραση περιεχομένου. Η ομάδα μας ελέγχει και επιβλέπει τη διαδικασία για να διατηρεί τις πληροφορίες χρήσιμες, σαφείς και αξιόπιστες.
Δύσκολες ερωτήσεις για το C-Suite
Καθώς ενσωματώνουμε αυτά τα συστήματα βαθύτερα στη ζωή μας, πρέπει να αναρωτηθούμε για το κρυφό κόστος. Τι συμβαίνει με την ιδιωτικότητά μας όταν κάθε prompt που πληκτρολογούμε χρησιμοποιείται για την εκπαίδευση της επόμενης έκδοσης του μοντέλου; Οι περισσότερες εταιρείες δεν έχουν σαφή πολιτική διατήρησης δεδομένων. Αν εισάγετε ένα ιδιοκτησιακό έγγραφο στρατηγικής σε ένα δημόσιο LLM, αυτές οι πληροφορίες θα μπορούσαν θεωρητικά να επανεμφανιστούν στο ερώτημα ενός ανταγωνιστή. Υπάρχει επίσης το περιβαλλοντικό κόστος. Η εκπαίδευση και η λειτουργία αυτών των μοντέλων απαιτεί τεράστια ποσά ηλεκτρικής ενέργειας και νερού για την ψύξη των data centers. Μια μελέτη στο Nature υπογραμμίζει ότι το αποτύπωμα άνθρακα ενός μόνο ερωτήματος σε ένα μεγάλο μοντέλο είναι σημαντικά υψηλότερο από ένα τυπικό ερώτημα σε μια search engine. Αξίζει η μικρή ευκολία ενός παραγόμενου email τον οικολογικό αντίκτυπο; Πρέπει επίσης να εξετάσουμε τις επιπτώσεις στα πνευματικά δικαιώματα. Αυτά τα μοντέλα εκπαιδεύτηκαν στο έργο εκατομμυρίων καλλιτεχνών και συγγραφέων χωρίς τη συγκατάθεσή τους. Ουσιαστικά χρησιμοποιούμε μια μηχανή που χτίστηκε πάνω σε κλεμμένη εργασία.
Υπάρχει επίσης το ζήτημα της ανθρώπινης διαίσθησης. Αν αναθέσουμε τη σκέψη μας σε μηχανές, χάνουμε την ικανότητα να εντοπίζουμε λάθη; Βλέπουμε ήδη μια πτώση στην ποιότητα του περιεχομένου στο διαδίκτυο καθώς άρθρα παραγόμενα από AI πλημμυρίζουν το internet. Αυτό δημιουργεί έναν βρόχο ανατροφοδότησης όπου τα μοντέλα εκπαιδεύονται στα αποτελέσματα άλλων μοντέλων, οδηγώντας σε μια υποβάθμιση της πληροφορίας γνωστή ως model collapse. Αν το internet γίνει μια θάλασσα από ανακυκλωμένο AI κείμενο, από πού θα έρθουν οι νέες ιδέες; Αυτά δεν είναι απλώς τεχνικά εμπόδια. Είναι θεμελιώδη ερωτήματα για το είδος του κόσμου που θέλουμε να χτίσουμε. Αυτή τη στιγμή δίνουμε προτεραιότητα στην ταχύτητα και τον όγκο έναντι της ακρίβειας και της πρωτοτυπίας. Αυτό μπορεί να λειτουργήσει για μερικά χρόνια, αλλά το μακροπρόθεσμο κόστος για τη συλλογική μας νοημοσύνη μπορεί να είναι σοβαρό. Πρέπει να αποφασίσουμε αν θέλουμε εργαλεία που μας βοηθούν να σκεφτόμαστε ή εργαλεία που σκέφτονται για εμάς.
Τεχνικά όρια για τον Power User
Για όσους θέλουν να ξεπεράσουν το βασικό chat interface, οι περιορισμοί γίνονται ακόμα πιο εμφανείς. Οι power users συχνά αναζητούν workflow integrations και API access για να χτίσουν custom λύσεις. Ωστόσο, σύντομα πέφτουν στον τοίχο των context windows και των token limits. Ένα context window είναι η ποσότητα πληροφορίας που το μοντέλο μπορεί να «θυμάται» κατά τη διάρκεια μιας συνομιλίας. Αν και ορισμένα μοντέλα ισχυρίζονται ότι χειρίζονται ολόκληρα βιβλία, η ακρίβεια της ανάκλησής τους πέφτει σημαντικά στη μέση του κειμένου. Αυτό είναι γνωστό ως το φαινόμενο «lost in the middle». Αν χτίζετε ένα αυτοματοποιημένο σύστημα, πρέπει επίσης να αντιμετωπίσετε τα rate limits. Οι περισσότεροι πάροχοι περιορίζουν πόσα αιτήματα μπορείτε να κάνετε ανά λεπτό, γεγονός που καθιστά δύσκολη την κλιμάκωση ενός εργαλείου για μεγάλη βάση χρηστών χωρίς σημαντικό κόστος. Η τιμολόγηση είναι επίσης ασταθής, καθώς οι εταιρείες προσπαθούν να καταλάβουν πώς να κάνουν αυτά τα ακριβά συστήματα κερδοφόρα.
Έχετε μια ιστορία, εργαλείο, τάση ή ερώτηση σχετικά με την τεχνητή νοημοσύνη που πιστεύετε ότι πρέπει να καλύψουμε; Στείλτε μας την ιδέα σας για άρθρο — θα χαρούμε να την ακούσουμε.Το τοπικό storage και το local inference γίνονται η προτιμώμενη διαδρομή για τους geeks που ενδιαφέρονται για την ιδιωτικότητα. Εργαλεία όπως το Ollama ή το LM Studio σας επιτρέπουν να τρέχετε μοντέλα στο δικό σας hardware. Αυτό λύνει το θέμα της ιδιωτικότητας αλλά εισάγει ένα hardware bottleneck. Για να τρέξετε ένα μοντέλο υψηλής ποιότητας τοπικά, χρειάζεστε μια ισχυρή GPU με πολλή VRAM. Τα περισσότερα καταναλωτικά laptops θα δυσκολευτούν να τρέξουν οτιδήποτε μεγαλύτερο από ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων σε αξιοποιήσιμη ταχύτητα. Υπάρχουν επίσης προκλήσεις στο λογισμικό. Η ενσωμάτωση αυτών των μοντέλων σε ένα υπάρχον workflow συνήθως απαιτεί γνώση Python ή παρόμοιας γλώσσας. Πρέπει να διαχειριστείτε system prompts, ρυθμίσεις temperature και top-p sampling για να έχετε συνεπή αποτελέσματα. Οι ακόλουθοι παράγοντες είναι κρίσιμοι για όποιον προσπαθεί να χτίσει ένα επαγγελματικό AI workflow:
- Η χωρητικότητα VRAM είναι το κύριο όριο για την εκτέλεση τοπικών μοντέλων.
- Το latency αυξάνεται καθώς το μέγεθος του μοντέλου ή το μήκος του prompt μεγαλώνει.
- Τα system prompts πρέπει να είναι προσεκτικά σχεδιασμένα για να εμποδίζουν το μοντέλο από το να ξεφεύγει από το θέμα.
Ακόμα και με το καλύτερο hardware, εξακολουθείτε να αντιμετωπίζετε ένα σύστημα που είναι εγγενώς απρόβλεπτο. Μπορείτε να στείλετε το ίδιο prompt δύο φορές και να πάρετε δύο διαφορετικά αποτελέσματα. Αυτή η έλλειψη ντετερμινισμού είναι εφιάλτης για την παραδοσιακή μηχανική λογισμικού. Σύμφωνα με μια αναφορά του MIT Technology Review, ο κλάδος εξακολουθεί να αναζητά έναν τρόπο να κάνει τα LLMs σταθερά αξιόπιστα για κρίσιμες εργασίες. Μέχρι να συμβεί αυτό, θα παραμείνουν ένα εργαλείο για χομπίστες ή ένας δευτερεύων βοηθός παρά ένα κύριο εργαλείο εργασίας.
Η τελική ετυμηγορία για τον θόρυβο
Η τρέχουσα κατάσταση του AI είναι ένα μείγμα γνήσιων δυνατοτήτων και ακραίας υπερβολής. Έχουμε εργαλεία που είναι απίστευτα καλά στη σύνοψη κειμένου, τη μετάφραση γλωσσών και τη συγγραφή βασικού κώδικα. Έχουμε επίσης μια τεράστια ποσότητα hype που υποδηλώνει ότι αυτά τα εργαλεία βρίσκονται στα πρόθυρα να αποκτήσουν συνείδηση ή να αντικαταστήσουν όλη την ανθρώπινη εργασία. Η αλήθεια βρίσκεται κάπου στη μέση. Αν χρησιμοποιείτε αυτά τα εργαλεία ως σημείο εκκίνησης, μπορούν να φανούν χρήσιμα. Αν τα χρησιμοποιείτε ως τελικό προϊόν, ζητάτε μπελάδες. Το ζωντανό ερώτημα που παραμένει είναι αν θα λύσουμε ποτέ το πρόβλημα της ψευδαίσθησης. Μερικοί ειδικοί πιστεύουν ότι είναι εγγενές μέρος του τρόπου λειτουργίας αυτών των μοντέλων, ενώ άλλοι πιστεύουν ότι περισσότερα δεδομένα και καλύτερη εκπαίδευση θα το διορθώσουν. Μέχρι να διευθετηθεί αυτό, η καλύτερη προσέγγιση είναι αυτή του προσεκτικού σκεπτικισμού. Χρησιμοποιήστε τα εργαλεία που λύνουν ένα συγκεκριμένο πρόβλημα για εσάς σήμερα και αγνοήστε τις υποσχέσεις για το τι μπορεί να κάνουν αύριο. Το πιο σημαντικό εργαλείο στο workflow σας παραμένει η δική σας κρίση.
Σημείωση συντάκτη: Δημιουργήσαμε αυτόν τον ιστότοπο ως έναν πολύγλωσσο κόμβο ειδήσεων και οδηγών τεχνητής νοημοσύνης για άτομα που δεν είναι φανατικοί των υπολογιστών, αλλά εξακολουθούν να θέλουν να κατανοήσουν την τεχνητή νοημοσύνη, να τη χρησιμοποιούν με μεγαλύτερη αυτοπεποίθηση και να παρακολουθούν το μέλλον που ήδη έρχεται.
Βρήκατε κάποιο λάθος ή κάτι που χρειάζεται διόρθωση; Ενημερώστε μας.