Πώς επεξεργάζονται εικόνες οι πίθηκοι και οι μηχανές;

Ερευνητές του Yale ανακάλυψαν μια διαδικασία στον εγκέφαλο των πρωτευόντων που ρίχνει νέο φως στον τρόπο λειτουργίας των οπτικών συστημάτων και θα μπορούσε να οδηγήσει σε πρόοδο τόσο στην ανθρώπινη νευροεπιστήμη όσο και στην τεχνητή νοημοσύνη. Εργαζόμενοι με ένα νέο υπολογιστικό μοντέλο, οι ερευνητές αποκάλυψαν έναν αλγόριθμο που αποκαλύπτει πώς ο εγκέφαλος των πρωτευόντων κατασκευάζει εσωτερικές τρισδιάστατες (3D) αναπαραστάσεις ενός αντικειμένου όταν βλέπει μια δισδιάστατη (2D) εικόνα αυτού του αντικειμένου. Τα ευρήματα δημοσιεύονται στα Πρακτικά της Εθνικής Ακαδημίας Επιστημών.

eikona

«Αυτό μας δίνει στοιχεία ότι ο στόχος της όρασης είναι να δημιουργήσει μια τρισδιάστατη κατανόηση ενός αντικειμένου», δήλωσε ο κύριος συγγραφέας της μελέτης Ilker Yildirim, επίκουρος καθηγητής ψυχολογίας στη Σχολή Τεχνών και Επιστημών του Yale. «Όταν ανοίγετε τα μάτια σας, βλέπετε τρισδιάστατες σκηνές – το οπτικό σύστημα του εγκεφάλου είναι σε θέση να κατασκευάσει μια τρισδιάστατη κατανόηση από μια απλοποιημένη δισδιάστατη προβολή».

Οι ερευνητές έχουν ονομάσει αυτή τη διαδικασία «αντίστροφα γραφικά», περιγράφοντας πώς το σύστημα οπτικής επεξεργασίας του εγκεφάλου λειτουργεί σαν μια διαδικασία γραφικών υπολογιστή, αλλά αντίστροφα, από μια δισδιάστατη εικόνα μέσω μιας λιγότερο εξαρτώμενης από την προβολή ενδιάμεσης αναπαράστασης «2,5D», και μέχρι ένα πολύ πιο ανεκτικό στην προβολή τρισδιάστατο αντικείμενο. Ένας ανθρώπινος εγκέφαλος, ουσιαστικά, μετατρέπει δισδιάστατες εικόνες που βλέπει κανείς – ίσως σε χαρτί ή σε οθόνη – σε τρισδιάστατα νοητικά μοντέλα. Τα γραφικά υπολογιστή, εν τω μεταξύ, κάνουν το αντίθετο, αποδίδοντας τρισδιάστατες σκηνές σε δισδιάστατες εικόνες.

«Αυτή είναι μια σημαντική πρόοδος στην κατανόηση της υπολογιστικής όρασης», είπε ο Γιλντιρίμ. «Ο εγκέφαλός σας το κάνει αυτόματα αυτό, και είναι δύσκολη δουλειά, υπολογιστικά. Παραμένει πρόκληση να κάνουμε τα συστήματα μηχανικής όρασης να πλησιάσουν σε αυτό για τις καθημερινές σκηνές που μπορούμε να συναντήσουμε». Το εύρημα θα μπορούσε να τροφοδοτήσει την έρευνα στην ανθρώπινη νευροεπιστήμη και τις διαταραχές της όρασης, καθώς και να προωθήσει τη δημιουργία συστημάτων μηχανικής όρασης με δυνατότητες όρασης πρωτευόντων, λένε οι ερευνητές.

Στην εργασία τους, οι ερευνητές διαπίστωσαν ότι ένα μέρος του κροταφικού λοβού του εγκεφάλου των πρωτευόντων – συγκεκριμένα, ο κατώτερος κροταφικός φλοιός, μια περιοχή κρίσιμη για την οπτική επεξεργασία – μετατρέπει τις εικόνες σε τρισδιάστατα νοητικά μοντέλα αντικειμένων. Το πέτυχαν αυτό αναπτύσσοντας αυτό που είναι γνωστό ως Δίκτυο Συμπερασμάτων Σώματος (BIN), ένα μοντέλο βασισμένο σε νευρωνικό δίκτυο ικανό να δημιουργήσει μια δισδιάστατη αναπαράσταση ενός αντικειμένου με βάση ιδιότητες σχήματος, στάσης και προσανατολισμού.

Αλλά σε αυτήν την περίπτωση, οι ερευνητές εκπαίδευσαν το BIN να αντιστρέψει αυτή τη διαδικασία, εκπαιδεύοντάς το να κατασκευάζει τρισδιάστατα ανθρώπινα σώματα και σώματα πιθήκων από εικόνες (με ετικέτα με τρισδιάστατα δεδομένα) απευθείας. Με αυτήν την είσοδο, το BIN έδειξε ότι αντιστρέφει τη συνήθη διαδικασία γραφικών υπολογιστή, καταλήγοντας σε τρισδιάστατες ιδιότητες που προέρχονται από τις δισδιάστατες εικόνες.

Αφού συνέκριναν αυτά τα δεδομένα BIN με δεδομένα εγκεφάλου που καταγράφηκαν σε μακάκους καθώς τους έδειχναν εικόνες σώματος μακάκων, οι ερευνητές διαπίστωσαν ότι τα στάδια επεξεργασίας του BIN αντιστοιχούσαν στη δραστηριότητα στις δύο περιοχές του εγκεφάλου των μακάκων (MSB και ASB) που εμπλέκονται στην επεξεργασία των σχημάτων σώματος.

autoeikona

«Το μοντέλο μας εξήγησε την οπτική επεξεργασία στον εγκέφαλο πολύ πιο προσεκτικά από ό,τι συνήθως κάνουν άλλα μοντέλα τεχνητής νοημοσύνης», δήλωσε ο Yildirim. «Ενδιαφερόμαστε περισσότερο για τις πτυχές της νευροεπιστήμης και της γνωστικής επιστήμης σε αυτό, αλλά και με την ελπίδα ότι αυτό μπορεί να βοηθήσει στην έμπνευση νέων συστημάτων μηχανικής όρασης και να διευκολύνει πιθανές ιατρικές παρεμβάσεις στο μέλλον».

Άλλοι συγγραφείς της μελέτης ήταν οι πρώτοι συγγραφείς Hakan Yilmaz και Aalap Shah, οι οποίοι είναι και οι δύο υποψήφιοι διδάκτορες στη Μεταπτυχιακή Σχολή Τεχνών και Επιστημών του Yale, και ερευνητές από το Πανεπιστήμιο του Princeton και το KU Leuven στο Βέλγιο.