Νέο μοντέλο πλαισιώνει την ανθρώπινη ενισχυτική μάθηση

Η ανθρώπινη συμπεριφορά καθοδηγείται έντονα από ανταμοιβές και από την αποφυγή αρνητικών συνεπειών. Η διαδικασία με την οποία μαθαίνουμε μέσα από θετικά αποτελέσματα –η ενισχυτική μάθηση (Reinforcement Learning, RL)– έχει αποτελέσει βασικό πυλώνα τόσο των νευροεπιστημών όσο και της υπολογιστικής μοντελοποίησης. Νέα έρευνα όμως αμφισβητεί κατά πόσο τα υπάρχοντα μοντέλα RL περιγράφουν πραγματικά τους μηχανισμούς που χρησιμοποιεί ο ανθρώπινος εγκέφαλος.

mnimi

Το υπόβαθρο της RL και η σχέση με τις ντοπαμινεργικές οδούς

Εδώ και δεκαετίες, θεωρείται ότι η ενισχυτική μάθηση σχετίζεται με τα ντοπαμινεργικά συστήματα του εγκεφάλου, τα οποία κωδικοποιούν «σφάλματα πρόβλεψης ανταμοιβής» – τη διαφορά δηλαδή μεταξύ αναμενόμενων και πραγματικών αποτελεσμάτων. Αυτή η ιδέα έχει τροφοδοτήσει τόσο την κατανόηση της μάθησης στον άνθρωπο όσο και την ανάπτυξη αλγορίθμων βαθιάς μάθησης.

Ένα νέο μοντέλο για αβέβαια περιβάλλοντα

Η Anne GE Collins, ερευνήτρια στο Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϊ, προτείνει ένα νέο μοντέλο που εξετάζει σενάρια όπου οι επιλογές έχουν αβέβαια, συμφραζόμενα εξαρτώμενα αποτελέσματα. Η μελέτη της, δημοσιευμένη στο Nature Human Behaviour, υποστηρίζει ότι τα κλασικά μοντέλα RL ίσως δεν αντανακλούν πιστά τις πραγματικές ψυχολογικές και νευρωνικές διαδικασίες της μάθησης.

Η συμβολή της μνήμης εργασίας και των συνηθειών

Στόχος της Collins ήταν να ξεχωρίσει τον ρόλο της μνήμης εργασίας (Working Memory, WM) και των συνηθειών (Habitual processes, H) από εκείνον της RL. Παρότι οι τρεις διαδικασίες μπορεί να οδηγούν στην ίδια επιλογή, βασίζονται σε εντελώς διαφορετικούς μηχανισμούς.

Η μνήμη εργασίας επιτρέπει την προσωρινή αποθήκευση και χρήση πληροφοριών.
Οι συνήθειες βασίζονται στην επανάληψη προηγούμενων συμπεριφορών, ανεξάρτητα από τις συνέπειες.
Η RL εξαρτάται από την εκμάθηση μέσω ανταμοιβών και σφαλμάτων.

Το πειραματικό παράδειγμα RLWM

Στα πειράματα που επανέλυσε η Collins, οι συμμετέχοντες έπαιξαν μια σειρά από απλά παιχνίδια υπολογιστή όπου έπρεπε να μάθουν ποιο κουμπί αποφέρει πόντους για κάθε εικόνα που έβλεπαν.
Η μεταβολή του αριθμού των εικόνων (ns) στόχευε στο να αυξήσει ή να μειώσει το φορτίο της μνήμης εργασίας, επιτρέποντας στους ερευνητές να δουν πότε οι άνθρωποι βασίζονται σε WM αντί για άλλους μηχανισμούς.

Τι δείχνουν τα δεδομένα: τα λάθη είναι… επίμονα

Η Collins ανέλυσε επτά διαφορετικά σύνολα δεδομένων από παρόμοιες εργασίες λήψης αποφάσεων. Ένα από τα πιο εντυπωσιακά ευρήματα ήταν ότι οι άνθρωποι συχνά επαναλαμβάνουν τα ίδια λάθη, αντί να προσαρμόζουν τη συμπεριφορά τους με βάση τα αποτελέσματα. Αυτό το μοτίβο είναι πιο συμβατό με συνήθειες και όχι με κλασική RL.

Η υπολογιστική μοντελοποίηση έδειξε ότι η συμπεριφορά των ανθρώπων συνάδει περισσότερο με συνδυασμό συνηθειών και μνήμης εργασίας, παρά με RL.

Ένα νέο θεωρητικό πλαίσιο: WM + H > RL

Σύμφωνα με τη Collins, η μνήμη εργασίας και οι συνήθειες, παρότι περιορισμένες, συνδυάζονται δυναμικά:

Η WM μπορεί να καθοδηγεί τον άνθρωπο προς «καλές» πράξεις.
Η H μπορεί να σταθεροποιεί αυτές τις πράξεις μέσω επανάληψης.

Ο συνδυασμός τους δημιουργεί μια ισχυρή μορφή μάθησης που δεν εξαρτάται κατ’ ανάγκη από τα σφάλματα πρόβλεψης ανταμοιβής.

Επιπτώσεις για την κατανόηση της ανθρώπινης μάθησης

Τα ευρήματα δεν αποκλείουν τον ρόλο της RL στους ανθρώπους, αλλά δείχνουν ότι σε πολλές καταστάσεις η RL δεν είναι ο πρωταρχικός μηχανισμός. Αντίθετα, οι συνήθειες και η μνήμη εργασίας μπορεί να αποτελούν τους βασικούς οδηγούς της συμπεριφοράς.

Η Collins επιδιώκει να καθορίσει:

πότε ενεργοποιείται η RL,
πώς ο εγκέφαλος επιλέγει μεταξύ WM, RL και H,
πώς τα διαφορετικά συστήματα συνεργάζονται κατά τη μάθηση.

mnimi 3

Προοπτικές για το μέλλον

Τα νέα ευρήματα μπορεί να βοηθήσουν στην ανάπτυξη υπολογιστικών μοντέλων που αντανακλούν καλύτερα την ανθρώπινη συμπεριφορά. Επιπλέον, ανοίγουν τον δρόμο για νέα ερωτήματα σχετικά με:

πώς σχηματίζονται οι συνήθειες,
πώς αλληλεπιδρούν με την εργαζόμενη μνήμη,
πώς εξελίσσονται υπό διαφορετικές συνθήκες μάθησης.

Τέλος, η Collins θέλει να ελέγξει κατά πόσο η διαδικασία H που εντοπίζεται στα πειράματα αντιστοιχεί στις πραγματικές καθημερινές συνήθειες των ανθρώπων.

Συντάκτης

Team NeaMou

View all posts

Δείτε Επίσης

Προηγούμενο άρθρο

Νέες οδηγίες του ΠΟΥ για την παχυσαρκία: Τι αλλάζει στη διάγνωση και τη θεραπεία

Επόμενο άρθρο

ΔΕΠΥ: Τα social media μπορεί να βλάψουν την προσοχή των παιδιών

Νέο μοντέλο πλαισιώνει την ανθρώπινη ενισχυτική μάθηση

Το υπόβαθρο της RL και η σχέση με τις ντοπαμινεργικές οδούς

Ένα νέο μοντέλο για αβέβαια περιβάλλοντα

Η συμβολή της μνήμης εργασίας και των συνηθειών

Το πειραματικό παράδειγμα RLWM

Τι δείχνουν τα δεδομένα: τα λάθη είναι… επίμονα

Ένα νέο θεωρητικό πλαίσιο: WM + H > RL

Επιπτώσεις για την κατανόηση της ανθρώπινης μάθησης

Συντάκτης

Δείτε Επίσης

Διαβήτης: Νέα μη επεμβατική μέθοδος μέτρησης βήτα κυττάρων

Αμηνόρροια: Τι συμβαίνει όταν λείπει η περίοδος;

Δεν μπορείς να γιατρευτείς αν παραμένεις στο ίδιο περιβάλλον που σε αρρώστησε

Τελευταία άρθρα

Διαβήτης: Νέα μη επεμβατική μέθοδος μέτρησης βήτα κυττάρων

Αμηνόρροια: Τι συμβαίνει όταν λείπει η περίοδος;

Δεν μπορείς να γιατρευτείς αν παραμένεις στο ίδιο περιβάλλον που σε αρρώστησε

Αν έχετε ρευματοειδή αρθρίτιδα, προσέξτε αυτά τα 6 «καμπανάκια»

Το διευρυνόμενο χάσμα ψυχικής υγείας μεταξύ αγοριών και κοριτσιών στην εφηβεία