L’intelligenza artificiale non è più il futuro: è il presente. E a Cuba, quel presente si chiama Cecilla. Un modello linguistico sviluppato con talento nazionale, in grado di elaborare informazioni, apprendere, interagire in linguaggio naturale e rispondere alle esigenze delle istituzioni e dei cittadini. Oggi, in tempo reale, ci avviciniamo a una delle scommesse più innovative dell’ecosistema digitale cubano. Parleremo con coloro che stanno dietro alla sua progettazione, sviluppo e applicazione, per capire come Cecilla diventi uno strumento tecnologico e anche culturale.
IA in CecilIA, un modello linguistico cubano
Nella seconda presentazione pubblica del modello linguistico cubano per l’IA denominato CecilIA, i suoi creatori hanno ribadito la rilevanza del progetto nel processo di trasformazione digitale e nella salvaguardia dell’identità dei cubani e delle cubane…
CecilIA prevale nel 2025 come modello linguistico cubano per l’intelligenza artificiale (IA) e, allo stesso tempo, come esempio di sovranità tecnologica in un tema di attualità. Il suo primo addestramento si è concluso negli ultimi giorni di maggio, mentre all’Avana si svolgeva la Convention Saber UH. In tale contesto è stata data la notizia e sono stati forniti i dettagli del progetto che costituisce un percorso fondamentale per l’adempimento dell’impegno costituzionale con lo sviluppo della società dell’informazione e della conoscenza e che ispira l’Agenda per la Trasformazione Digitale e la Strategia di Intelligenza Artificiale approvate un anno fa nel Paese.
Tra i suoi creatori: il Dr. C. Yudivián Almeida Cruz, direttore del Gruppo di Intelligenza Artificiale e Scienza dei Dati della Facoltà di Matematica e Informatica (Matcom) dell’Università dell’Avana (UH); la dott.ssa C. Suilán Estévez Velarde, preside della Facoltà di Matcom; professori come il dott. C. Alejandro Piad Morffis; e un gruppo di studenti molto impegnati nei progressi di questo modello che, sebbene richieda ancora processi di formazione e adeguamenti per la sua ottimizzazione e il suo pieno sviluppo, ha già ora meriti che i suoi simili nel resto del mondo non possiedono.
CecilIA è cubana quanto l’omonimo personaggio reso popolare da un romanzo di Cirilo Villaverde. Ma vuole essere cubanissima. Il suo sistema informatico è stato addestrato con circa 400 opere letterarie cubane di rilievo, informazioni dalla stampa del Paese degli ultimi 10 anni, oltre a enciclopedie, diversi discorsi e la Gazzetta Ufficiale disponibile in formato digitale. Tutto ciò ha permesso di raggiungere un volume di 2,7 GB di informazioni e sono stati necessari tre giorni di duro addestramento.
Un obiettivo attuale è quello di ampliare questo database prendendo altri riferimenti come sceneggiature di prodotti audiovisivi, dove si intende aggiungere i dialoghi di risorse tipicamente cubane come Le avventure di Elpido Valdés. Tutto ciò rende possibile che il modello basato su tecniche e algoritmi di intelligenza artificiale interpreti e generi testi in lingua spagnola, ma con parole o frasi più vicine all’identità dei cubani.
Aumentare il successo di un’aspirazione del genere sarà possibile anche nella misura in cui tutta la società e le sue istituzioni sosterranno il processo di digitalizzazione dei documenti e collaboreranno affinché le informazioni che li riguardano siano pubbliche e accessibili. A tal proposito, il 4 luglio la Società Cubana di Diritto e Informatica ha convocato i membri del Capitolo dell’Avana e professionisti di diversi settori. L’incontro, tenutosi presso la sede dell’Unione Nazionale dei Giuristi di Cuba (UNJC), ha riunito un centinaio di persone interessate all’argomento. Più di due ore di scambio hanno permesso la riflessione e l’impegno a contribuire dai diversi settori di attività.
Tecnologia di base
Tra i primi insegnamenti condivisi dal professor Yudivián Almeida Cruz c’è la riflessione sui modelli di linguaggio piccolo (SLM) che sono stati presi come base per CecilIA. Si tratta di una variante accessibile ai paesi in via di sviluppo, perché richiede meno risorse hardware, energia elettrica, tempo di formazione e i dati di formazione possono essere più adeguati all’ambiente di utilizzo. Egli riferisce inoltre che i modelli di grandi dimensioni e il loro addestramento non sono stati preparati per tenere conto delle sfumature culturali delle comunità.
Grazie al suo intervento, sono stati resi noti gli elementi che sono stati presi in considerazione per creare il modello di linguaggio cubano. Vale a dire:
- Costruire un corpus testuale cubano.
- Prendere come base un SLM.
- Effettuare un pre-training continuo, a partire dal modello.
- Base con il corpus cubano.
- Quantizzare a diverse dimensioni.
- Perfezionare le istruzioni.
- Progettare un benchmark per convalidare la cubanità del modello
- Convalidare il modello
È importante sapere che è stato preso come base il modello Salamandra, pre-addestrato per la lingua spagnola. Per la convalida sono stati presi in considerazione diversi esperimenti e nel modello CecilIA è stato ottenuto un comportamento simile al modello Salamandra 2b, anche se, essendo personalizzato con nuove conoscenze, alcune attività specifiche hanno visto diminuire le loro prestazioni rispetto a Salamandra 2b, il che era un risultato prevedibile, se si tiene conto di quanto affermato nel teorema Non-Free-Lunch.
A differenza della prima presentazione del modello all’evento accademico Saber UH 2025, questa volta è stato possibile mostrare alcuni progressi, perché da allora il lavoro è stato intenso. Attualmente, gli sforzi si concentrano sul miglioramento del corpus di addestramento, sull’apporto di piccole modifiche e sul perfezionamento del corpus di istruzioni utilizzato con un maggior numero di elementi personalizzati.
Secondo il dottor C. Yudivián Almeida, l’obiettivo è quello di creare un corpus cubano di istruzioni, che conterrà circa 10.000 istruzioni previste. A tal fine, si apre la possibilità di una partecipazione aperta alla creazione di istruzioni, in formato json. Chiunque desideri partecipare può proporre istruzioni per il nuovo modello di addestramento. Nei prossimi addestramenti si dovrebbe arrivare a modelli da 7B e poi continuare.
“Oggi, con l’esistenza della prima versione del modello di linguaggio cubano (#CecilIA), si sta lavorando allo sviluppo del primo ecosistema per dargli un maggiore valore d’uso”, ha detto lo specialista.
Impegnati nello sviluppo
Il modello si avvale del contributo cubano delle tesi di dottorato dei dottori Suilán Estévez e Alejandro Piad; inoltre, in questo momento altri dottorandi cubani, co-tutorati da questi professori, stanno lavorando alle loro ricerche e puntano allo sviluppo sia di Salamandra che di CecilIA.
Come già avvenuto alla Convenzione Saber UH, anche nella sede dell’UNJC si è tenuta una sessione di scambio. Tra le domande poste dal pubblico, spicca per la sua importanza quella relativa al tema della lingua dei segni cubana e alle prospettive di sviluppo dei modelli, tenendo conto di questa tematica.
Nelle risposte si affronta il tema della proprietà intellettuale nella letteratura e l’importanza di ampliare la comunità di soggetti interessati allo sviluppo del modello cubano. A ciò si aggiunge l’importanza di disporre di una strategia affinché in ogni caso vi sia uno scambio di documenti del patrimonio in formato digitale, frasi isolate e testi di canzoni, con la collaborazione di tutte le organizzazioni coinvolte nella gestione delle informazioni.
A partire dall’addestramento dei modelli, si riflette sulla loro influenza nella trasformazione delle società, dei modi di parlare e delle culture. Ad esempio, modelli come chatgpt interpretano EcuRed e traducono o danno risposte manipolate, in accordo con la loro ideologia e con modalità lontane dalla fonte originale di informazione.
È stato inoltre possibile apprendere che il team di sviluppo di CecilIA presta attenzione all’importanza dell’equilibrio dei dati di addestramento, al trattamento della prevenzione dei pregiudizi e alla spiegabilità, avvalendosi di protocolli, buone pratiche e standard promossi dall’UNESCO, a partire dall’adozione della Raccomandazione per l’etica dell’IA.
I relatori hanno condiviso la preoccupazione per l’etica, che è compito di tutti e di tutte le aree del sapere: filosofi, linguisti, sociologi… Le scienze sociali devono partecipare attivamente, sia alla costruzione dei modelli che al loro sfruttamento.
Si è anche affrontato il tema dell’ambiguità e dell’importanza del lavoro, con l’incertezza delle informazioni o la certezza nella gestione delle risposte. Tuttavia, riguardo al tema dell’allucinazione, che è stata un’altra domanda del pubblico, il dottor C. Yudivián Almeida ha affermato: “I modelli linguistici sono macchine per allucinare”. Ma nel valutare i vantaggi e i rischi dell’allucinazione, si punta su un buon equilibrio all’altezza dello stato dell’arte in questi temi.
C’è stato consenso nel riconoscere che CelilIA contribuirà alla conservazione della cultura cubana, se riusciremo a metterla al servizio di notizie quotidiane, testi legali, sceneggiature cinematografiche, immagini e suoni, dati che la aiutino a “parlare cubano”.
In termini di sovranità e identità, CecilIA difende l’idea che oggi non sia sufficiente avere informazioni online, perché la popolazione interagisce ogni giorno di più con l’IA attraverso modelli linguistici (utilizzando applicazioni come chatGPT, tra le altre), quindi avere un modello linguistico cubano garantirebbe la possibilità di costruire in seguito applicazioni di IA generativa e preservare la nostra cultura e ideologia.
Come in altre occasioni, è emersa la necessità di disporre di dati in formato digitale; tuttavia, sappiamo che esistono intere biblioteche di grande valore in cui tutto è ancora su carta. Per questo motivo, si insiste sull’importanza dei dati, della loro standardizzazione e del loro utilizzo, con una politica rivoluzionaria di trasformazione digitale.
In questo senso, si insiste sull’importanza di disporre di dati e informazioni in formato testo semplice. Nel processo di edizione dei libri è essenziale conservare le informazioni originali in formato digitale, il testo semplice, il formato modificabile deve essere d’ora in poi un output di qualsiasi processo di generazione di contenuti e un input per CecilIA.
Infine, mentre si affrontano i processi di digitalizzazione massiccia e ordinata, come il patrimonio digitale, CecilIA MLS invita tutti coloro che desiderano collaborare per ottenere sviluppi endogeni, da settori specifici come il diritto, la salute, la lingua cubana, le arti, la storia, tutto ciò che la creatività dei cubani può generare.
In questo caso, il settore giuridico contribuisce all’integrazione coerente, coordinata e organizzata, e quindi contribuisce in larga misura a quel corpus linguistico necessario a CecilIA e di cui la nostra popolazione ha bisogno per parlare in buon cubano di qualsiasi argomento giuridico.
Nello scambio con il pubblico hanno prevalso le congratulazioni al team creativo, l’importanza di una politica pubblica che garantisca l’accesso ai dati per alimentare il modello, l’etica e la spiegabilità dell’IA, e la formazione di competenze in altre discipline affinché, dai loro campi di conoscenza, contribuiscano allo sviluppo del modello linguistico.
Al termine della conferenza di presentazione, nella sala si respirava orgoglio, interesse, gratitudine, curiosità e, cosa molto importante, lo stesso team di sviluppo ha riconosciuto i risultati di altri team in tutto il paese, per ottenere strumenti e applicazioni di IA. Siamo cresciuti in tutto. Ottima presentazione. Un buon dibattito. Il lavoro sul modello CecilIA continua.
Fonte: Cubainformación
Traduzione: italiacuba.it

