GR
Η ιστοσελίδα μας χρησιμοποιεί cookies. Από την στιγμή που θα πλογηθείτε αποδέχεστε την χρήση τους. Δείτε περισσότερα στην Πολιτική Απορρήτου.     
LLM and LRM reasoning

The Illusion of Thinking

Γιατί η λογική της Τεχνητής Νοημοσύνης Φτάνει σε Αδιέξοδο

Εισαγωγή

Μια σημαντική μελέτη του 2025, "The Illusion of Thinking" , χρησιμοποίησε ελεγχόμενα παζλ για να δοκιμάσει τα Μεγάλα Μοντέλα Συλλογισμού (LRMs) και αποκάλυψε βασικούς περιορισμούς. Αυτή η έρευνα δείχνει ότι, παρά τους προηγμένους μηχανισμούς, αυτά τα μοντέλα ακόμα δεν μπορούν να εφαρμόσουν αξιόπιστα πολύπλοκη λογική σε νέες καταστάσεις (να «γενικεύσουν»). Θα εξετάσουμε τα ευρήματα της μελέτης και θα υποστηρίξουμε ότι για εφαρμογές στον πραγματικό κόσμο, ειδικά στις επιχειρήσεις, πρέπει το λογισμικό να διασφαλίζει την αξιοπιστία των αποτελεσμάτων.

Μεγάλα Γλωσσικά Μοντέλα (LLM) έναντι Μεγάλων Μοντέλων Συλλογισμού (LRM)

Τον Σεπτέμβριο του 2024, η OpenAI κυκλοφόρησε το o1-preview, ένα μοντέλο που σχεδιάστηκε για να σκέφτεται και να επιλύει προβλήματα. Σύντομα, άλλα μοντέλα όπως τα o1/o3 της OpenAI, το DeepSeek-R1, το Claude 3.7 Sonnet Thinking και το Gemini Thinking κυκλοφόρησαν, προωθώντας την ιδέα οτι η Τεχνητή Νοημοσύνη μπορεί να «σκεφτεί». Η κύρια διαφορά μεταξύ των τυπικών Μεγάλων Γλωσσικών Μοντέλων (LLMs) και των Μεγάλων Μοντέλων Συλλογισμού (LRMs) είναι ο τρόπος εκπαίδευσης και λειτουργίας τους. Τα LLMs μαθαίνουν προβλέποντας την επόμενη λέξη σε μεγάλα κείμενα, εστιάζοντας στην σαφήνεια και τη γενική γνώση. Τα LRMs επεκτείνουν αυτή τη δυνατότητα χρησιμοποιώντας βήματα συλλογισμού, μαθαίνοντας να επιλύουν προβλήματα βήμα προς βήμα. Τα LRMs συχνά χρησιμοποιούν επιπλέον εργαλεία, όπως υπολογιστές κώδικα, μηχανές αναζήτησης ή βάσεις δεδομένων, και μπορούν να αποθηκεύουν ενδιάμεσα βήματα για έλεγχο και διόρθωση λαθών.

The illusion of Thinking

Τον Ιούνιο του 2025, ερευνητές της Apple κυκλοφόρησαν μια μελέτη με τίτλο "The Illusion of Thinking"

Η μελέτη χρησιμοποίησε ελεγχόμενα παζλ που επέτρεψαν στους ερευνητές να αλλάζουν την πολυπλοκότητα των προβλημάτων χωρίς να αλλάζουν την βασική λογική. Ο κύριος στόχος τους ήταν να δοκιμάσουν την ικανότητα σκέψης των LRMs και να δουν πώς συγκρίνονται με τα τυπικά LLMs.

Η έρευνα εντοπίζει βασικούς περιορισμούς, παρά τους εξελιγμένους μηχανισμούς τους, τα LRMs αποτυγχάνουν να γενικεύσουν τον συλλογισμό πέρα από ορισμένα όρια πολυπλοκότητας.

Η μελέτη εντόπισε τρία διαφορετικά επίπεδα συλλογισμού:

  1. Τα τυπικά LLMs τα πήγαν καλύτερα από τα LRMs σε πολύ εύκολα προβλήματα.
  2. Τα LRMs ήταν τα καλύτερα σε προβλήματα μέτριας δυσκολίας.
  3. Και τα δύο απέτυχαν σε πολύ δύσκολα προβλήματα.

Η ανάλυση αποκάλυψε μοτίβα συλλογισμού που εξαρτώνται από την πολυπλοκότητα, την αναποτελεσματική «υπερανάλυση» που οδηγεί στην πλήρη αποτυχία σε σύνθετα προβλήματα.

Τα αποτελέσματα περιλάμβαναν:

  1. Περιορισμούς στον ακριβή υπολογισμό. Για παράδειγμα, η παροχή του αλγορίθμου λύσης για τον Πύργο του Ανόι δεν βελτίωσε την απόδοση των μοντέλων στο παζλ.
  2. Η συμπεριφορά του μοντέλου ήταν ασυνεπής, με επιτυχία έως και 100 σωστές κινήσεις στον Πύργο του Ανόι, αλλά λιγότερες από 5 στο παζλ Διάβασης του Ποταμού. Αυτό πιθανόν υποδηλώνει ότι παραδείγματα Διάβασης του Ποταμού με Ν>2 είναι σπάνια στο διαδίκτυο, πράγμα που σημαίνει ότι τα LRMs μπορεί να μην έχουν συναντήσει ή απομνημονεύσει συχνά τέτοιες περιπτώσεις κατά την εκπαίδευση.
  3. Η ανθρώπινη απόδοση στις μαθηματικές ασκήσεις, AIME25, ήταν υψηλότερη από ό,τι στο AIME24, υποδηλώνοντας ότι το AIME25 μπορεί να είναι λιγότερο περίπλοκο. Ωστόσο, τα μοντέλα αποδίδουν χειρότερα στο AIME25 από ό,τι στο AIME24, πιθανόν υποδηλώνοντας ότι τα μοντέλα έχουν ξανασυναντήσει κατά την εκπαίδευση τους παρόμοια προβλήματα.

Η Λύση

Για να αναπτύξουμε λογισμικό που μπορεί να επιλύσει σύνθετες εταιρικές προκλήσεις, πρέπει να χρησιμοποιήσουμε ένα υβριδικό σύστημα. Αυτή η προσέγγιση συνδυάζει τις δυνάμεις των LLMs και LRMs με τα υπάρχοντα, αξιόπιστα εταιρικά μας συστήματα.

  1. Τα LLMs είναι εξαιρετικά στην κατανόηση της γλώσσας και τη δημιουργία περιεχομένου. Τα LRMs μπορούν να δημιουργήσουν μια βήμα προς βήμα διαδικασία σκέψης (μια αλυσίδα σκέψης) για να χωρίσουν το κύριο πρόβλημα σε ευκολότερα, μικρότερα κομμάτια.
  2. Αυτή η βασική δομή ενισχύεται από συστήματα RAG. Αυτά τα συστήματα χρησιμοποιούν έξυπνη τμηματοποίηση (smart chunking) για να χωρίσουν τα δεδομένα της εταιρείας σε τμήματα που είναι χρήσιμα για το εκάστοτε πλαίσιο. Αυτή η διαδικασία δομεί τα γεγονότα που έχει πρόσβαση το μοντέλο και ελαχιστοποιεί τον κίνδυνο η Τεχνητή Νοημοσύνη να δημιουργήσει ψευδείς πληροφορίες (γνωστές ως παραισθήσεις).
  3. Το πιο σημαντικό είναι ότι τα καθιερωμένα, βασισμένα σε κανόνες συστήματα πρέπει να λειτουργούν ως ένα επίπεδο επίβλεψης. Ο ρόλος τους είναι να επιβάλλουν συγκεκριμένη εταιρική λογική και περιορισμούς στο αποτέλεσμα.

Δεν μπορούμε ακόμη να βασιστούμε αποκλειστικά έτοιμα εργαλεία LLM και LRM. Οι περιορισμοί τους, όπως η αστάθεια σε υψηλή πολυπλοκότητα, η ασυνεπής αριθμητική ακρίβεια και η αποτυχία να γενικεύσουν πολύπλοκη λογική, απαιτούν να κατασκευάσουμε αυτό το ισχυρό, ειδικά σχεδιασμένο πλαίσιο για να διασφαλίσουμε την αξιοπιστία σε εταιρικό επίπεδο. Αυτή η συνδυασμένη αρχιτεκτονική επιτυγχάνει την απαραίτητη ισορροπία μεταξύ της ευελιξίας της Τεχνητής Νοημοσύνης, της πραγματικής ακρίβειας και της μη διαπραγματεύσιμης επιχειρηματικής ορθότητας.

Η μελέτη τονίζει ότι τα έτοιμα LRMs & LLMs δεν είναι αξιόπιστα όταν πρέπει να ενσωματώσουμε λογική στα συστήματά μας. Θέλετε να δείτε την υβριδική αρχιτεκτονική σε λειτουργία; Κλείστε ένα demo για να δείτε πώς δημιουργούμε αξιόπιστες λύσεις Τεχνητής Νοημοσύνης, βασισμένες στη λογική, για την επιχείρησή σας.

Συγγραφέας

author Andreas Bougiouklis picture Ανδρέας Μπουγιουκλής linkedin icon
Ο Ανδρέας είναι CEO και co-founder της PaperTrail. Όταν δεν ασχολείται με τις καθημερινές του υποχρεώσεις, προσπαθεί να ανακαλύψει τι καινούργιο υπάρχει είτε στο πραγματικό είτε στο ψηφιακό κόσμο.
BOOK A DEMO
PAPERTRAIL ΙΚΕ
Πλ. Ιπποδαμείας 8, Πειραιάς 18531
ΑΦΜ: 802948204
Αριθμόε ΓΕΜΗ: 185983309000
Τηλ: 6988253626
Email: [email protected]

PaperTrail

Αρχική
Blog
Σύνδεση
Κλείσε Online Demo

Όροι Χρήσης

Πολιτική Απορρήτου

(c) 2023-2025 PaperΤrail. All rights reserved.