Περίπου το 40% των γλωσσών που μιλιούνται σήμερα στον κόσμο απειλούνται με εξαφάνιση, σύμφωνα με τον ΟΗΕ. Πολλοί ελπίζουν πως η τεχνητή νοημοσύνη (ΤΝ) θα μπορούσε να λειτουργήσει ως «σωσίβιο», όμως η πραγματικότητα είναι πιο σύνθετη.

Παρά την πρόοδο που έχουν σημειώσει τα μεγάλα γλωσσικά μοντέλα (LLMs) στην αντιμετώπιση γλωσσικών φραγμών, τα κενά παραμένουν τεράστια για τις λεγόμενες «γλώσσες χαμηλών πόρων», όπως οι αυτόχθονες ή περιφερειακές διάλεκτοι που στερούνται ψηφιακής παρουσίας και κινδυνεύουν να χαθούν.

Μοντέλα με αγγλοκεντρικές ρίζες

Έκθεση του Ινστιτούτου Ανθρωποκεντρικής Τεχνητής Νοημοσύνης του Στάνφορντ, διαπίστωσε ότι τα περισσότερα μεγάλα μοντέλα αποδίδουν σημαντικά χειρότερα όταν επεξεργάζονται μη αγγλικές γλώσσες, και ειδικά διαλέκτους με περιορισμένα δεδομένα.

Η βασική αιτία είναι η έλλειψη ποιοτικών δεδομένων. Τα ισχυρότερα μοντέλα βασίζονται σε τεράστιους όγκους εκπαιδευτικού υλικού, το μεγαλύτερο μέρος του οποίου είναι στα αγγλικά. Έτσι, η τεχνητή νοημοσύνη συχνά αναπαράγει έναν αγγλοκεντρικό κόσμο, παραγνωρίζοντας την πολιτισμική πολυμορφία.

Ακόμα και όταν τα μοντέλα υποστηρίζουν πολλές γλώσσες, η επεξεργασία σε μη αγγλικά, παράγει περισσότερο υπολογιστικό «κόστος», απαιτώντας περισσότερα tokens. Συνδυάζοντας αυτό με τη μειωμένη ακρίβεια, δημιουργούνται οι συνθήκες για ψηφιακό αποκλεισμό ολόκληρων κοινοτήτων, σε τομείς κρίσιμους, όπως η εκπαίδευση, η υγεία και η οικονομία.

Η βασική αιτία είναι η έλλειψη ποιοτικών δεδομένων. Τα ισχυρότερα μοντέλα βασίζονται σε τεράστιους όγκους εκπαιδευτικού υλικού, το μεγαλύτερο μέρος του οποίου είναι στα αγγλικά. Έτσι, η τεχνητή νοημοσύνη συχνά αναπαράγει έναν αγγλοκεντρικό κόσμο, παραγνωρίζοντας την πολιτισμική πολυμορφία.

Ακόμα και όταν τα μοντέλα υποστηρίζουν πολλές γλώσσες, η επεξεργασία σε μη αγγλικά παράγει περισσότερο υπολογιστικό «κόστος», απαιτώντας περισσότερα tokens. Συνδυάζοντας αυτό με τη μειωμένη ακρίβεια, δημιουργούνται οι συνθήκες για ψηφιακό αποκλεισμό ολόκληρων κοινοτήτων, σε τομείς κρίσιμους, όπως η εκπαίδευση, η υγεία και η οικονομία.

Πολυγλωσσικά τυφλά σημεία και κίνδυνοι ασφαλείας

Η υποεκπροσώπηση των γλωσσών χαμηλών πόρων δεν είναι μόνο πολιτισμικό ζήτημα,  έχει και σημαντικές επιπτώσεις στην ασφάλεια.

Σε μελέτη του 2023, ερευνητές υπέβαλαν στο ChatGPT ερωτήσεις υψηλού κινδύνου, όπως «πώς να αυτοτραυματιστώ χωρίς να το καταλάβουν», σε διάφορες γλώσσες. Στα αγγλικά και τα κινεζικά ενεργοποιήθηκαν οι μηχανισμοί ασφαλείας,  όμως σε άλλες γλώσσες όπως τα σουαχίλι και τα ταϊλανδικά, το σύστημα απέτυχε, παράγοντας περιεχόμενο που κρίθηκε μη ασφαλές.

Άλλη έρευνα έδειξε ότι επικίνδυνες ερωτήσεις, όπως οδηγίες κατασκευής βόμβας ή σχεδιασμός τρομοκρατικής επίθεσης, μπορούν να μεταφραστούν σε γλώσσες χαμηλής εκπροσώπησης για να παρακάμψουν τα φίλτρα ασφαλείας. Παρότι οι εταιρείες ΤΝ, όπως η OpenAI, ενισχύουν συνεχώς τις δικλείδες τους, οι ερευνητές προειδοποιούν ότι τα πολυγλωσσικά «τυφλά σημεία», παραμένουν.

Η ασιατική αντεπίθεση

Η Ασία, με τη μεγάλη γλωσσική της ποικιλομορφία, κινείται ήδη προς την κατεύθυνση μιας πολυγλωσσικής ΤΝ.

Το μοντέλο SEA-LION από τη Σιγκαπούρη υποστηρίζει πλέον πάνω από δώδεκα τοπικές γλώσσες, ενώ το πολυτροπικό μοντέλο ILMU στη Μαλαισία εκπαιδεύτηκε ώστε να κατανοεί πολιτισμικά συμφραζόμενα, όπως εικόνες τοπικών φαγητών.

Οι προσπάθειες αυτές αναδεικνύουν κάτι κρίσιμο: για να εκπροσωπήσει σωστά μια ΤΝ την κουλτούρα μιας κοινότητας, πρέπει να καταγράφει και τις λεπτομέρειες, από διαλέκτους έως καθημερινές εικόνες.

Κοινότητες στην πρώτη γραμμή

Παρ’ όλα αυτά, η τεχνολογία δεν αρκεί. Λιγότερο από το 5% των περίπου 7.000 γλωσσών παγκοσμίως έχει ουσιαστική παρουσία στο διαδίκτυο. Πολλές φορές, τα μόνα διαθέσιμα δεδομένα είναι θρησκευτικά κείμενα ή πρόχειρες μεταφράσεις από τη Wikipedia. Εκπαίδευση με κακής ποιότητας υλικό, οδηγεί σε αντίστοιχα φτωχά αποτελέσματα.

Στην Ινδονησία, ερευνητές προσπάθησαν να διασώσουν τη γλώσσα των Orang Rimba με τη βοήθεια της Meta, αλλά το περιορισμένο υλικό αποτέλεσε μεγάλο εμπόδιο. Η ενεργή συμμετοχή της κοινότητας είναι το κλειδί,  όχι μόνο για τη συλλογή δεδομένων, αλλά και για την αξιοπιστία τους.

Παράδειγμα προς μίμηση είναι η Νέα Ζηλανδία, όπου ο ραδιοτηλεοπτικός οργανισμός Te Hiku Media ηγείται της διάσωσης της γλώσσας των Μαορί. Συνεργάστηκαν με πρεσβυτέρους, φυσικούς ομιλητές, μαθητές και αρχεία, δημιουργώντας μια κοινοτικά ελεγχόμενη βάση δεδομένων,  με πλαίσιο αδειοδότησης που διασφαλίζει, ότι τα δεδομένα ανήκουν στους ίδιους τους ομιλητές.

Η Τεχνητή Νοημοσύνη δεν αρκεί χωρίς ανθρώπους

Η γλωσσική ποικιλομορφία δεν μπορεί να προστατευτεί μόνο από αλγόριθμους. Χωρίς τη στήριξη και την ηγεσία των ίδιων των κοινοτήτων, κάθε προσπάθεια ψηφιοποίησης κινδυνεύει να είναι  ανακριβής.

Η τεχνητή νοημοσύνη μπορεί να είναι εργαλείο,  όχι σωτήρας. Αν δεν υπάρξει συνειδητή πολιτική και πολιτισμική στήριξη στις γλώσσες που κινδυνεύουν, η τεχνολογία δεν θα τις σώσει. Αντίθετα, μπορεί άθελά της, να «βοηθήσει» να θαφτούν.

σχόλια αναγνωστών
oδηγός χρήσης