Η μάθηση μέσω ανταμοιβών αποτελεί έναν από τους βασικότερους μηχανισμούς με τους οποίους οι άνθρωποι και τα ζώα προσαρμόζονται στο περιβάλλον τους. Για δεκαετίες, οι επιστήμονες θεωρούσαν ότι η αποτελεσματικότητα αυτού του τύπου μάθησης εξαρτάται κυρίως από το πόσες φορές ένα ερέθισμα συνδέεται με μια ανταμοιβή. Ωστόσο, μια νέα μελέτη από ερευνητές του University of California, San Francisco και του University of California, Berkeley δείχνει ότι ένας άλλος παράγοντας ίσως είναι εξίσου σημαντικός: ο χρόνος που μεσολαβεί ανάμεσα στις ανταμοιβές.
Τα ευρήματα, που δημοσιεύθηκαν στο επιστημονικό περιοδικό Nature Neuroscience, υποδηλώνουν ότι η ταχύτητα και η αποτελεσματικότητα της μάθησης δεν εξαρτώνται μόνο από τον αριθμό των εμπειριών ανταμοιβής, αλλά και από το πόσο χρονικά κατανεμημένες είναι αυτές οι εμπειρίες.
Πώς λειτουργεί η μάθηση μέσω ανταμοιβών
Στη συμπεριφορική ψυχολογία είναι γνωστό ότι οι οργανισμοί μαθαίνουν να συνδέουν συγκεκριμένα σήματα ή καταστάσεις με θετικά ή αρνητικά αποτελέσματα. Όταν μια ενέργεια ακολουθείται από ανταμοιβή, ο εγκέφαλος τείνει να ενισχύει τη συμπεριφορά που την προκάλεσε. Αντίθετα, όταν μια πράξη οδηγεί σε αρνητική συνέπεια, μειώνεται η πιθανότητα να επαναληφθεί.
Κεντρικό ρόλο σε αυτή τη διαδικασία παίζει η ντοπαμίνη, ένας νευροδιαβιβαστής που σχετίζεται με το κίνητρο και την προσδοκία ευχάριστων εμπειριών. Η ντοπαμίνη λειτουργεί ως ένα είδος «διδακτικού σήματος» για τον εγκέφαλο, βοηθώντας τον να προβλέπει πότε μια ενέργεια θα οδηγήσει σε θετικό αποτέλεσμα.
Παραδοσιακά μοντέλα μάθησης υποστήριζαν ότι κάθε φορά που ένα ερέθισμα συνδέεται με μια ανταμοιβή, ο εγκέφαλος προσαρμόζει σταδιακά τις προσδοκίες του. Σύμφωνα με αυτή την άποψη, όσο περισσότερες φορές βιώνεται ο συνδυασμός ερεθίσματος και ανταμοιβής, τόσο ισχυρότερη γίνεται η μάθηση.
Ο ρόλος του χρόνου ανάμεσα στις ανταμοιβές
Η νέα μελέτη αμφισβητεί αυτή τη μακροχρόνια αντίληψη. Οι ερευνητές διαπίστωσαν ότι η αποτελεσματικότητα της μάθησης επηρεάζεται σημαντικά από τον χρόνο που μεσολαβεί ανάμεσα στις ανταμοιβές.
Σε πειράματα με ποντίκια, οι επιστήμονες εκπαίδευσαν τα ζώα σε μια απλή μορφή εξαρτημένης μάθησης. Τα ποντίκια άκουγαν έναν σύντομο ήχο και στη συνέχεια λάμβαναν μια μικρή ποσότητα ζαχαρόνερου ως ανταμοιβή. Με την πάροδο του χρόνου, τα ζώα μάθαιναν να συσχετίζουν τον ήχο με την επερχόμενη ανταμοιβή.
Οι ερευνητές όμως τροποποίησαν τον τρόπο με τον οποίο παρουσιάζονταν τα ζεύγη ήχου και ανταμοιβής. Σε ορισμένες περιπτώσεις, τα ζώα βίωναν πολλά τέτοια ζεύγη σε μικρά χρονικά διαστήματα. Σε άλλες περιπτώσεις, τα ζεύγη ήταν λιγότερα αλλά απείχαν χρονικά περισσότερο μεταξύ τους.
Τα αποτελέσματα ήταν απρόσμενα. Μετά από το ίδιο συνολικό χρονικό διάστημα εκπαίδευσης, τα ποντίκια είχαν μάθει τη συσχέτιση σχεδόν το ίδιο καλά, ακόμη κι αν είχαν βιώσει πολύ λιγότερα ζεύγη ερεθίσματος και ανταμοιβής.
Ένας νέος κανόνας μάθησης
Τα ευρήματα αυτά οδήγησαν τους ερευνητές στο συμπέρασμα ότι η μάθηση δεν καθορίζεται απλώς από τον αριθμό των εμπειριών, αλλά από τον μέσο χρόνο ανάμεσα στις ανταμοιβές. Με άλλα λόγια, η ποσότητα μάθησης που προκύπτει από κάθε εμπειρία φαίνεται να αυξάνεται όταν τα γεγονότα είναι πιο αραιά χρονικά.
Αυτό σημαίνει ότι λίγες εμπειρίες, αν κατανέμονται σε μεγαλύτερα χρονικά διαστήματα, μπορούν να είναι εξίσου αποτελεσματικές με πολλές επαναλήψεις σε σύντομο χρόνο. Το φαινόμενο αυτό υποδηλώνει ότι ο εγκέφαλος δεν μετρά απλώς πόσες φορές συμβαίνει κάτι, αλλά λαμβάνει υπόψη και τη χρονική δομή των εμπειριών.
Οι επιστήμονες περιέγραψαν αυτή τη διαδικασία με έναν απλό μαθηματικό κανόνα: η μάθηση από κάθε εμπειρία ανταμοιβής είναι ανάλογη με τον μέσο χρόνο που μεσολαβεί μεταξύ των ανταμοιβών.
Η βιολογική βάση της διαδικασίας
Για να κατανοήσουν τον νευροβιολογικό μηχανισμό πίσω από αυτό το φαινόμενο, οι ερευνητές εξέτασαν τη δραστηριότητα της ντοπαμίνης στον Nucleus accumbens, μια περιοχή του εγκεφάλου που σχετίζεται με την ανταμοιβή και το κίνητρο.
Χρησιμοποιώντας ειδικούς φθορίζοντες αισθητήρες, μπόρεσαν να παρακολουθήσουν τα σήματα ντοπαμίνης ενώ τα ποντίκια μάθαιναν τη σύνδεση ανάμεσα στον ήχο και την ανταμοιβή. Τα αποτελέσματα έδειξαν ότι οι αλλαγές στη δραστηριότητα της ντοπαμίνης ακολουθούσαν τον ίδιο χρονικό κανόνα που παρατηρήθηκε στη συμπεριφορά των ζώων.
Με άλλα λόγια, ο εγκέφαλος φαίνεται να εφαρμόζει έναν μηχανισμό μάθησης που βασίζεται στον χρόνο και όχι αποκλειστικά στη συχνότητα των εμπειριών.
Επιπτώσεις για την επιστήμη και την τεχνητή νοημοσύνη
Τα νέα αυτά ευρήματα μπορεί να έχουν σημαντικές συνέπειες για την κατανόηση της μάθησης, της λήψης αποφάσεων και των συμπεριφορών που σχετίζονται με την ανταμοιβή. Αν επιβεβαιωθούν σε περαιτέρω έρευνες, ενδέχεται να οδηγήσουν σε αναθεώρηση πολλών καθιερωμένων μοντέλων στη ψυχολογία και τη νευροεπιστήμη.
Παράλληλα, τα αποτελέσματα μπορεί να επηρεάσουν και την ανάπτυξη συστημάτων τεχνητής νοημοσύνης. Οι αλγόριθμοι μάθησης που βασίζονται στην ανταμοιβή χρησιμοποιούνται ευρέως στη μηχανική μάθηση, και η ενσωμάτωση χρονικών παραμέτρων θα μπορούσε να βελτιώσει την αποτελεσματικότητά τους.
Τέλος, η κατανόηση του τρόπου με τον οποίο ο εγκέφαλος μαθαίνει από τις ανταμοιβές θα μπορούσε να συμβάλει στην καλύτερη κατανόηση διαταραχών όπως ο εθισμός, όπου τα συστήματα ανταμοιβής του εγκεφάλου λειτουργούν με μη προσαρμοστικό τρόπο.

