I progressi compiuti negli ultimi mesi – e in continuo miglioramento -dalla IA (Intelligenza artificiale) sono straordinari. Alcuni ne discutono con molte riserve e sospetti, altri con entusiasmo e proiezione verso il futuro.
di Tiziano Franzi
Recentemente il sito Google translate ha aggiunto alle molte lingue ufficiali mondiali anche alcuni dialetti italiani, in particolare
friulano, ligure, lombardo, veneto e siciliano.
Per quanto riguarda il ligure, lingua e non dialetto come ha sempre sostenuto l’insigne studioso Fiorenzo Toso, occorre dire che sotto questa definizione sono accomunate parlate locali tra loro anche diversissime sia come scrittura sia come pronuncia. Il medesimo termine infatti, anche il più semplice come “acqua” è scritto e pronunciato in moltissime forme profondamente differenti fra loro da Ventimiglia a La Spezia; da àiga a ægua, ægoa, aigua e via dicendo.
Detto questo, è un bene, secondo il mio parere, che anche l’intelligenza artificiale accolga nel suo enorme patrimonio anche i dialetti, perché questa forma di comunicazione così antica, unica e pregante sta purtroppo via via scomparendo, perché pochissimi giovani lo usano.
«La prima a raccogliere la sfida della traduzione automatica nelle lingue locali era stata Meta, – come scrive Fabio Canessa– la big company americana che controlla Facebook, Instagram e WhatsApp. Nel 2019 l’azienda fondata da Mark Zuckerberg ha lanciato il progetto No Language Left Behind (nessuna lingua resti indietro) con l’obiettivo di “proporre traduzioni di qualità e sottoposte a valutazione fra 200 lingue”, compreso il ligure.
Non a caso in squadra c’è Jean Maillard, genovese di nascita, ricercatore in linguistica computazionale con un dottorato di ricerca a Cambridge. Nel 2023 è stato lanciato Mms (Massively Multilingual Speech), un modello linguistico di intelligenza artificiale open source in grado di riconoscere circa 4mila lingue. Pochi mesi dopo è stato presentato SeamlessM4T, sistema di traduzione testuale e vocale premiato dal Time tra le migliori invenzioni dell’anno, e anche questo supporta il genovese.»
Ma, come già era accaduto agli inizi dei traduttori istantanei multilingue, per quanto riguarda il ligure i risultati sono piuttosto negativi. Questo è accettabile, perché i sistemi si fondano sul machine learning: i traduttori automatici vengono “istruiti” con enormi quantità di testi scritti e registrazioni audio in modo che riescano a riconoscere da soli i pattern per passare da una lingua all’altra.
Occorre quindi dare fiducia e tempo agli studiosi che si dedicano all’aggiornamento di tali sistemi. Certamente, i primi risultati sono molto deludenti.
Ad esempio, digitando sul Google translate una semplice frase come “Oggi a Genova fa molto caldo” il risultato è “Oggi à Genova o l’é ben ben cado“. E’ accettabile che Google non conosca ancheu, ma che ignori addirittura Zena sembra davvero poco incoraggiante.
E ancora, un esempio ancora più clamoroso: “belin” – considerata una parola simbolo della genovesità – viene reso curiosamente come “campana”, forse perché il sistema lo associa all’inglese “bell”.
Negli “Atti del recente 3° incontro annuale del gruppo di interesse speciale sulle lingue con risorse insufficienti @LREC-COLING 2026” [https://aclanthology.org/volumes/2024.sigul-1/] è scritto: «Grandi sforzi di traduzione automatica multilingue stanno migliorando l’accesso e le prestazioni per le lingue con risorse insufficienti, ma spesso non riescono a tradurre concetti locali e culturalmente specifici. Inoltre, la traduzione da lingue di input praticamente rilevanti potrebbe essere inferiore a quelle che sono relativamente sovrarappresentate nel set di dati di addestramento. In questo lavoro, pubblichiamo un nuovo corpus, ZenaMT, contenente 7.561 frasi parallele ligure-italiane, quasi un quinto delle quali sono tradotte anche in inglese. Questo corpus abbraccia cinque domini: notizie locali e internazionali, letteratura ligure, concetti linguistici liguri genovesi, regole tradizionali dei giochi di carte ed espressioni geografiche liguri. Abbiamo scoperto che un modello di traduzione aumentato con ZenaMT migliora una linea di base del 20% e di oltre il 25% (BLEU) rispetto a NLLB-3.3B, che è oltre 50 volte più grande. I nostri risultati dimostrano l’utilità di creare set di dati per MT specificamente adattati al contesto culturale dei parlanti liguri. Distribuiamo liberamente ZenaMT e prevediamo di aggiornare periodicamente il corpus per migliorare le prestazioni di MT e la copertura del dominio.»
E questa è la speranza di tutti quelli che hanno a cuore la sopravvivenza dei dialetti, in tutte le forme delle parlate locali, come retaggio culturale di quelle radici che non dobbiamo mai dimenticare e che tutti dobbiamo impegnarci a continuare a valorizzare.
In rete, comunque, ci sono già siti interessanti per chi volesse tradurre dall’italiano al genovese e viceversa come:
- Dizionario TIG [http://www.zeneize.net/]
- Verbi Genovesi, coniugazioni [https://conseggio-ligure.org/it/grammatica/verbi/]
- Dizionario Olivieri, Genovese-Italiano [http://www.zeneize.net/]
E altri ancora. E per finire, proviamo a fare tradurre all’intelligenza artificiale il testo di questa barzelletta:
Quali gösci ne verrebbero fuori?
Tiziano Franzi