Com entrenar un model de llenguatge extens en català amb en Joan Llop Palao

Presentem en Joan Llop Palao, investigador al Centre de Supercomputació de Barcelona (BSC), en aquesta sisena entrevista i darrer episodi de la primera temporada del pòdcast de Ciència Oberta, el RecerCA’T. Parlem d’intel·ligència artificial, de models de llenguatge extensos i sobre quines dificultats tenen llengües com el català per poder-ne entrenar models.

Escolta’ns a Spotify, a iVoox o llegeix la transcripció de l’episodi que trobaràs més avall!

Transcripció de l’episodi

Víctor: La intel·ligència artificial és una disciplina que està transformant radicalment la manera com vivim. Treballem i ens relacionem amb la tecnologia. No és només una idea de ciència-ficció, és una realitat que influeix cada cop més en la nostra vida quotidiana. Des de les seves humils arrels fins als avenços més recents, la intel·ligència artificial ha experimentat una evolució sorprenent. En l’actualitat, a través de sofisticats algoritmes d’aprenentatge automàtic, les màquines poden aprendre de les dades i millorar el seu rendiment sense intervenció humana directa. No obstant això, aquesta ràpida evolució no està exempta de reptes i qüestions ètiques. A mesura que la intel·ligència artificial es converteix en part integrant de la nostra societat, sorgeixen preocupacions sobre la privacitat, la seguretat i l’impacte social. Com afecta a la intel·ligència artificial les nostres feines? Com interacciona amb la nostra privacitat? Com influeix en la presa de decisions importants? Aquesta petita introducció que heu d’escoltar ha estat escrita per ChatGPT. Segur que us sona, oi? El 30 de novembre de 2022, la intel·ligència artificial va sacsejar la quotidianitat de moltes persones. ChatGPT quedava a la disposició de qualsevol persona amb accés a internet. Va ser una sorpresa majúscula conversar amb aquesta eina i veure com generava un text aparentment original i no un simple copia i enganxa. Les possibilitats són enormes. Pots demanar que escrigui un poema d’un Chihuahua que viatja a Júpiter, que et recomani receptes de cuina del Nepal o que et dissenyi una ruta cultural pels pobles del Baix Montseny. A partir d’aquí, van proliferar noves eines que van més enllà del text i que es poden implementar per la generació d’imatges, per reconeixement de veu, per la creació musical i artística en general, o fins i tot pel diagnòstic mèdic. Tanmateix i com ella mateixa reconeix, la intel·ligència artificial ens planteja reptes importants, oi, Pau?

Pau: Hola, Víctor. Sí, sí, com molt bé dius, la intel·ligència artificial ens porta una infinitat d’aplicacions i facilitats, però també ens pot portar molts maldecaps i amenaces, especialment en el camp lingüístic. Per això avui tenim amb nosaltres un especialista de la IA, de la intel·ligència artificial, i més concretament amb models de llenguatge, en Joan Llop Palao. En Joan és graduat en ciències de la computació per la Universitat Politècnica de Catalunya i va cursar un màster en intel·ligència artificial a la mateixa universitat. Ara treballa al Centre Supercomputació de Barcelona a la Unitat de Tecnologies del Llenguatge, desenvolupant models de llenguatge amb una especial atenció a llengües minoritzades i minoritàries. Benvingut, Joan.

Joan: Hola, moltes gràcies per convidar-me.

Víctor: Benvingut. Joan, per trencar el gel, quin és el teu llenguatge de programació favorit i per què?

Joan: C++ és amb el que ho vaig fer tot. Ho he fet tot i avui no em deixen treballar perquè tots estem centrats en Python. C++.

Pau: Ets una bèstia, eh? C++. S’ha utilitzat moltíssim el concepte d’intel·ligència artificial, però no tothom sap què és. De fet, fins i tot nosaltres mateixos, quan en parlem, cada vegada que ho expliquem ho fem d’una manera diferent. Tu com ho explicaries? Què és la intel·ligència artificial, Joan?

Joan: Això no m’ho pregunto jo. A veure, no ho sé. D’acord. Si fem servir el terme que va fer servir, crec, als anys 50, en primer lloc, diria que…

Pau: Queda molt lluny, eh?

Joan: Ja, però és que realment no està molt clar què és. Ara tot té intel·ligència artificial, tot és intel·ligència artificial, què és exactament? Potser ho podríem definir com qualsevol programa que aprèn per si mateix donades unes dades, però llavors podem posar coses extremament simples a dins, fins a coses molt complexes. Però no està molt clar què és. Avui dia, potser o quasi segur que podríem associar al concepte de aprenentatge profund, tot i que la intel·ligència artificial és molt més àmplia. No ho sé, la línia no és clara. Jo tampoc sabria definir-la.

Pau: Ostres, ens ho faràs molt complicat, eh?

Víctor: Ara ho comentaves tu, Pau, però sembla que la intel·ligència artificial sigui d’ara, potser de l’any passat com a molt, però això ve de molt més enllà, no?

Joan: De fet, un dels primers problemes que es van plantejar, no crec que fos el primer, però un dels primers va ser un professor de Stanford, li va proposar a un alumne a veure si podia treballar amb textos humans, la tasca no me’n recordo exactament quina li va posar, així com un treballet tonto i tal. Aquest treballet tonto es va convertir en el processament del llenguatge natural, que avui dia encara no està ni molt a prop d’estar resolt. La intel·ligència artificial ve de molt lluny, tan lluny com els ordinadors, des que hi ha ordinadors que volem que els ordinadors facin coses automàticament cada cop més autònomes, més automàtiques, i suposo que d’aquí surt tot plegat, tot i que, com dèieu, no està clar si un programa que llegeix tres inputs i treu dos outputs és intel·ligent artificial o no, tot està per veure. La definició exacta no us la sabria donar jo.

Víctor: Llavors, segons el que has comentat, creus que la paraula intel·ligència és l’adient per a aquests tipus d’eines? És el que més ho defineix?

Joan: Sempre és un problema de definició, sempre. Primer has de definir intel·ligència per veure si la podem fer servir per això o no. És molt atractiu el terme, suposo que ve més en aquest sentit de publicitat i d’allò que una altra cosa.

Pau: Tu treballes amb intel·ligència artificial, però més concretament en allò que en català anomenem els models de llenguatge extensos, que són, en anglès, els Large Language Models, que és una paraula que t’he sentit dir ja moltes vegades. Abans de parlar de com els creeu o enteneu, vull saber què fan, què ens permet fer un model de llenguatge extens?

Joan: Un model de llenguatge extens, per començar, no és una sola cosa, en són moltes. Es poden classificar, principalment, en el que diem encoders i el que diem decoders. Un encoder vindria a ser un model que t’agafa un text i et produeix una representació amb números que simbolitzen aquell text. Un decoder, a partir d’un text, genera la següent paraula. Aquí tens les dues grans vessant avui en dia. Previ a això, hi havia altres models i altres coses que també se li deien models de llenguatge, que eren extensos, com els que coneixeu avui. Jo diria que són aquests dos, principalment.

Pau: A partir d’una paraula, pots donar-li una entrada d’informació que serien una sèrie de paraules i a partir d’això et pot predir quines venen després o quines podrien venir més tard.

Joan: Únicament una, una cada moment.

Pau: Clar, però al xat GPT, tu li fas una pregunta i pots preguntar com arribo al Centre de Supercomputació de Barcelona i què està passant allà dins.

Joan: Si t’ho pogués explicar…

Pau: Al final ens donen moltes paraules, no? No ens està donant una sola paraula.

Joan: Sí, però això és com tot. Tu tens un sistema que està fet per predir d’esquerra a dreta, igual que com llegim. Va llegint fins a arribar a l’última paraula i aquí genera la següent. Pot triar diverses. Va construint així fins a arribar a un moment que sembla que té sentit. Hi ha diferents algoritmes per predir aquesta seqüència de paraules. Això tot assumint els models, estil decoder, estil basats en l’arquitectura GPT, que és el que es fa servir habitualment. La principal és aquesta. Vas predient paraula a paraula i no només predius una sola paraula. Tenim una llista de paraules, és molt curiós com es configuren en aquestes llistes, que s’anomena el vocabulari del tokenitzador. Són llistes de paraules. Són totes les possibles paraules o trossets de paraula. Durant tota aquesta llista, li assigno un numeret de quant probable que la següent paraula sigui la següent.

Pau: A partir d’això et va construint les frases o paràgrafs.

Joan: Exacte. En poses una o vàries i la poses una altra vegada a l’entrada del model i el model torna a predir la següent. Hi ha moltes maneres de fer això. Al final et construeix una cosa que, sorprenentment, té sentit.

Pau: Hem parlat que hi ha uns models que són una sèrie d’algoritmes que ens hi referim com a intel·ligència artificial, i que ens generen uns textos.

Joan: En realitat, un model no és un algoritme. Un model el podríem definir com una capsa. És l’objecte que et genera la següent paraula. En realitat, no sé si es pot definir com un algoritme. És complex. Jo diria que l’algoritme seria més… Un algoritme ho podríem pensar com una recepta. La recepta per fer truita de patates és un algoritme. La recepta per entrenar aquest model potser ho definiria més com un conjunt de peces enganxades. Com un objecte.

Pau: En aquest cas, què necessiteu? Perquè aquest model aprengui a parlar, podríem dir, o escriure, què necessiteu?

Joan: Exemples del que volem que faci. Si volem que generi la següent paraula, necessitem molts textos.

Pau: D’on es treuen aquests textos? Quin tipus de textos són?

Joan: No es podia fer el que es fa ara perquè no es tenien el volum de textos que es tenen en un format digital. Gràcies a internet, ara tenim grans quantitats de text. Estem parlant de moltíssimes quantitats de text. Intentem agafar el que vindria a ser tot internet. Tot aquest text es converteix en uns formats determinats que li pots passar al model perquè, per cada context, et predigui la següent paraula i el model va aprenent així.

Pau: Es podria dir que en el fons és com un nen petit que…

Joan: No. Si comencem a fer analogies d’aquest estil, ens perdem en l’antropomorfització. Quan converteixes en una cosa que no és, fa por una mica. Perquè després tenim molts problemes ètics al respecte. No, no, no són nens petits.

Pau: Un dels interessos de la unitat de tecnologies de llenguatge del BSC és desenvolupar models de llenguatge per al català en el marc del projecte AINA. Ens ho pots explicar una miqueta?

Joan: El projecte Aina té l’objectiu de crear infraestructura per al català. Infraestructura entesa com a infraestructura per a la tecnologia del llenguatge català, i més concretament com dades i models. La idea és que un parlant de català, l’objectiu seria que tingués tots els serveis que té una llengua majoritària, com podria ser el castellà o l’anglès. En el cas del català, ens trobem amb una falta de dades, recursos, models, dades de molts tipus, models de molts tipus diferents. Hem d’entendre que el que sembla que estem vivint és una revolució. S’ha inventat la màquina de vapor d’aquest segle, o almenys així ho entenc jo. A partir d’ara, ha sortit fa molt poc i està encara en procés de ser millorada, però d’aquí a deu o quinze anys potser han crescut un piló d’empreses que es dediquen a utilitzar tots aquests recursos. Si aquests recursos només estan en anglès, les empreses només es dedicaran a treballar per coses en anglès i l’anglès se’ns menjarà de mala manera. També tenim el castellà que està aquí mateix i el castellà és una llengua extremadament estesa i si tindrà els mateixos recursos que l’anglès, el català hauria de tenir exactament els mateixos recursos.

Pau: Per tant, nosaltres com a catalanoparlants i consumidors i usuaris de serveis, el desenvolupament d’aquests projectes ens permetrà gaudir de tots aquests serveis en la nostra llengua o facilitarà que es pugui desenvolupar les eines necessàries per fer-ho.

Joan: Molta gent al principi va dir que a Siri en català, no. És una cosa molt privada. Nosaltres volem que hi hagi com a mínim els recursos per crear totes aquestes eines en català. De fet, ara mateix…

Pau: No creareu Siri i Alexa, però potser gràcies a això aquestes empreses podran utilitzar la vostra feina per desenvolupar-les.

Joan: Exacte. I no només aquestes empreses. La idea és que les noves empreses que vindran puguin tenir tot un suport i un seguit de recursos que puguin fer servir, que són la base de tots aquests productes que després venen al mercat i que una empresa no li faci mandra. Si una empresa ha de crear… No existeixen els recursos ni l’ecosistema, no pot desenvolupar productes en català. Com a mínim, que hi sigui. Si més tard ningú en fa cas i tothom ho ignora, ja més no hi podem fer.

Pau: És una tasca molt important. Esteu fent una feinada i espero que es faci servir.

Joan: De moment ens ha dit que hem tingut una mica de sort i Google ja ha inclòs el català com una llengua amb molts recursos. L’ha inclós com una de les llengües, juntament amb el castellà, l’alemany i el francès, amb més recursos per als seus productes. En temes de futurs productes que desenvolupin, és possible que el català estigui bastant inclòs en quasi tot.

Pau: Aquest grup de llengües que has dit, són concretament aquestes i prou? O també hi ha d’altres com per exemple l’italià?

Joan: Diria que aquestes i prou.

Pau: Ostres, és sorprenent.

Joan: Ho hauríeu de revisar, que no estic molt segur.

Pau: Bé, en aquest marc del que deies abans, de si hi ha llengües majoritàries que hi ha molta més informació com l’anglès o potser també el castellà, però almenys en segon terme. Pel que fa al català, heu estat desenvolupant, entrenant un model que heu anomenat FLOR a partir d’un altre model de llenguatge multilingüe. Per què és necessari aquest factor multilingüe? Què és això?

Joan: Sí, correcte. D’acord, primer de tot, parlar del debat de monolingüe contra multilingüe bàsicament té dos vessants. Una és un vessant més, per mi una mica més interessant, que és el concepte de si les llengües comparteixen conceptes. Si entrenar un model amb múltiples llengües pot millorar la mateixa llengua.

Pau: El funcionament d’una sola llengua.

Joan: Assumim que tenim anglès i hi ha dades infinites i entrenem un model amb una gran quantitat de dades en anglès. Si entrenéssim aquell mateix model amb altres idiomes, l’anglès es podria veure ajudat per les altres llengües? Ser capaç de ser multilingüe pot ajudar. Està clar que per tasques de traducció sí. Un model multilingüe traduirà millor que un model que no. A part d’això, en altres tasques, com podria ser pregunta o resposta, pot ajudar a tenir un entrenament en altres llengües. Això és una banda. Per l’altra banda és que hi ha moltes llengües que no són l’anglès que els hi falten dades.

Pau: El català està en aquesta situació.

Joan: Nosaltres no tenim suficients dades per entrenar. Inclús, havent descarregat tot internet, és a dir, havent descarregat tot internet en català, filtrat i deduplicat, etc. Mira, per posar números en concret. Nosaltres ja fa bastant temps volíem entrenar uns models d’1,3 bilions anglesos, és a dir, milers de milions de paràmetres. I ens trobem que, per les lleis que regeixen aquests models, l’última llei, que és la llei xinxilla, ens recomana, perquè sigui òptim pel que fa a computació, entrenar amb 26 milers de milions de paraules. Dic paraules, però no són paraules. Són trossets de paraula. Trossets de paraula en català. Clar, 26 milers de milions de trossets de paraula és bastant difícil d’aconseguir. Nosaltres ens hi vam posar al màxim. Ens hem posat en contacte amb moltíssima gent i sempre estem oberts a qualsevol institució que tingui grans volums de dades que ens el cedeixi. Moltíssimes pàgines web, diaris, de tota mena. No vull dir noms, perquè després me’n deixaré molts i molts han col·laborat. Llavors, després de fer un esforç enorme per recol·lectar tantes dades com vam poder, després de fer grans descàrregues massives d’internet, netejar el Common Crawl, que vindria a ser una còpia de tot internet que es va fent cada dos mesos o cada tres, alliberant una còpia nova de tot el que han pogut recol·lectar d’internet. Llavors, nosaltres ens descarreguem aquestes còpies, les filtrem, les dupliquem i traiem tot el català que podem d’aquí. Malgrat haver fet tot l’esforç que vam poder per tenir tant català com podem, només teníem cinc milers de milions de 26. Llavors, sí, òbviament podem agafar aquest català i agafar el model i entrar-lo en diverses èpoques, que vol dir passar aquestes dades diverses vegades.

Pau: Les mateixes dades les vas reutilitzant?

Joan: Les pots reutilitzar d’alguna manera, però hi ha molts factors que influeixen aquí. Si un text el tens duplicat dins el teu d’allò i el tornes a duplicar, estàs quadruplicant. Hi ha diverses normes que ens diuen que sempre és millor, però si tens un text repetit depèn de fins a quin punt. De fet, últimament ha sortit un paper a NeurIPS, a l’última conferència que hi ha hagut, que diu que fins a quatre vegades no fa pitjor el model.

Pau: Ho esteu salvant d’una manera. És com que dins d’aquesta mala situació que ens falta informació…

Joan: Exacte. Què es pot fer? L’únic que pots fer és anar-te’n a altres llengües, agafar dades i intentar veure si aquestes dades són suficients.

Pau: I què veieu?

Joan: A veure, sens dubte necessitem arribar a aquesta capacitat d’aquest nombre de dades, perquè si no no tindríem… Hi ha altres factors. La cosa és, a part d’arribar a aquest número perquè el model sigui prou bo, perquè si no el que tenim és que el model s’ha quedat enrere respecte de la competència. A part que sigui prou bo, que d’alguna manera sigui capaç de mantenir idiomes anteriors si estàs reutilitzant un model, d’una altra banda. En el nostre cas, partíem del Bloom, que és una iniciativa molt maca de Big Science, al qual també vam participar en el seu moment, que van generar un piló de models, etc. I nosaltres utilitzàvem aquests models, i aquests models tenien castellà i en anglès, entre altres teníem 46 llengües. La idea és que com que de castellà també en tenim, perquè dintre tenim altres projectes, tenim castellà ja recol·lectat, i en anglès és molt fàcil de recol·lectar, doncs vam incloure aquestes dues llengües. Per les noves generacions de model inclourem totes les llengües oficials europees, més algunes com el gallec, el basc, etc. Inclourem un piló de llengües. Nosaltres estem apostant per la banda multilingüe sempre. Fa tres anys no apostàvem tant per la banda multilingüe perquè els models eren molt més petits que els models sencers només en català.

Víctor: I a banda del català, hi ha alguna altra llengua que pugui semblar el català per nombre d’habitants, per exemple, o per situació que estigui treballant…

Joan: El finlandès. Les llengües nòrdiques, de fet, les llengües nòrdiques totes van en paquet. Perquè com que són més o menys en la situació catalana, inclús depèn de quina menys parlants, depèn de quina més, el suec, per exemple, en té més, i el finlandès en té una mica menys, diria. Dinamarca, Suècia, Noruega i inclús Finlàndia intenten anar com a lot. La idea és la mateixa. Tothom està intentant fer el mateix. Vindria a ser generar recursos per les seves pròpies llengües. Tothom està contactant amb les grans fonts que tenen dins el seu país, les biblioteques públiques, etc. Nosaltres igual. Els projectes són bastant similars en molts sentits i sempre fem…

Víctor: I heu estat en contacte o cadascú va per la seva banda?

Joan: Sí, estem en contacte i no només estem en contacte, a vegades fins i tot ens ajuntem. Ara mateix estem col·laborant amb un institut que es diu el DFKI per la nova generació de models que farem aquest any que entra. Ens estan ajudant, ens estem ajudant. Ells ens han proveït moltíssimes dades que ells estan interessats que s’incloguessin en els nostres models. Nosaltres, que farem els models a la nostra màquina, inclourem tot el que ens diguin. Hem col·laborat en alguns articles junts. La veritat és que, en aquest sentit, té poc sentit treballar en paral·lel depèn de com. Sabem que Portugal està treballant en una iniciativa molt similar. Ara crec que ja hem tingut algunes reunions. La idea és intentar arribar a acords entre els grans desenvolupadors de models dels diferents contextos o països, i sobretot si són propers i es poden ajuntar.

Víctor: Així com a curiositat, quan vam fer el guió, ho vam comentar. Saps per què a totes aquestes eines se’ls posa nom de dona? Està l’Aina, la Flor, la Maria, que també juguen amb la IA.

Joan: La tria de noms, la veritat és que no hi estic jo ficat, però em sembla bastant… No m’hi havia fixat, la veritat. Però és una bona observació. Crec que generalment intenten posar noms que tinguin IA a dins, en el cas de Maria i Aina. No sé si aquesta va ser el factor. I en el cas de FLOR era perquè sé que hi havia sobre la taula també CaBLOOM i no els va agradar.

Pau: Però sí que hi ha relació amb BLOOM, no?

Joan: Sí, d’això venia.

Pau: Florir, no?

Joan: Sí, exacte.

Víctor: Abans ho hem comentat una mica i també se n’ha parlat molt. Els models d’intel·ligència artificials poden ser racistes, masclistes, homòfobs…

Joan: I ho són. Discriminatoris en general.

Víctor: Podries explicar per què?

Joan: Sí, molt fàcil. Un model només és un resum de totes les paraules que li hem donat. Les paraules que li hem donat és tot internet. Si internet és racista, masclista, etc., és això.

Víctor: Reprodueix d’alguna manera el que li dones, no?

Joan: No, textualment. Segurament tu agafes textos que generi el model, els busques i no els trobaràs enlloc. Però sí que en certa manera reprodueix les idees. És una mitjana de totes les idees que hi són. És molt interessant, de fet, si tu intentes agafar els models més avançats en anglès, com ChatGPT, i li demanes fer alguna cosa que segur que no està a la distribució de dades. El típic exemple que posava en Gary Marcus fa molt poc era el de l’astronauta… Tu li demanes a un model d’estil DALL-E o qualsevol d’aquests que et dibuixi una imatge d’un astronauta que cavalca en un cavall i perfecte. Li demanes que et dibuixi un cavall que cavalca en un astronauta i no hi ha manera. No és capaç, i això passa el mateix amb els models de text. La lògica que ha entès de tot el que ha vist sempre és la mitjana. Mai no té idees originals fora del que ha vist. S’ha d’entendre que són… Gary Marcus feia servir el concepte de mediocre AI, intel·ligència artificial mediocre, i amb això tens tota la raó del món, agafes tota la gran quantitat d’informació del món, la comprimeixes, fas una mena de resum estrany, i el model és això, una mena de cosa mediocre entre tota la intel·ligència…

Pau: Un poti-poti. Tornant al tema de la llengua catalana, que és un aspecte que ens interessa molt a Ciència Oberta, volia comentar que pensem que la deixadesa en les polítiques lingüístiques ha contribuït en un endarreriment considerable al català en l’entorn digital, tot i que s’ha vist reforçat molt per iniciatives de comunitats com la Viquipèdia, per exemple. Ara, amb el desenvolupament i desplegament de la intel·ligència artificial, creus que aquest problema es podria agreujar o creus que iniciatives com les que ens comentaves abans que teniu del projecte AINA seran suficients com per al català pugui remuntar en l’àmbit digital?

Joan: Primer de tot, sí li ho devem tot a la Viquipèdia, i també Softcatalà ha fet una feinada, se’ls ha de reconèixer sempre. No, sense dubte el projecte AINA no és suficient. És un pas que crec que és molt positiu, però no és ni de lluny suficient. Es necessita un ecosistema de comunitat tant d’usuaris com d’empreses que desenvolupin productes reals en català. S’ha de fer polítiques que incentivin tot el que vindria a ser això, la utilització d’aquesta tecnologia. Si tu pots posar sobre la taula un pilot de tecnologia, però després s’ha d’utilitzar d’una manera tant d’usuaris, fort. Tampoc soc expert en el tema, només crec que es necessita moltíssima feina per part de molta gent. Òbviament, projecte AINA no és la solució màgica a tot, però crec que és un pas necessari.

Pau: És el primer pas del desenvolupament, després també cal desplegament i ús.

Joan: Exacte.

Víctor: La intel·ligència artificial avui dia és un tema que està en boca de tots. Et volia preguntar, entre la gent que assegura que la intel·ligència artificial és el futur i és la solució a tot i la que en renega completament i argumenta que ens substituiran les màquines i que és un drama total, tu com ho veus? Com a expert en el tema?

Joan: On estan els límits de la intel·ligència artificial? Les dues coses que has dit són posar la intel·ligència artificial a dalt de tot, però també hi ha gent que diu que això… La intel·ligència artificial ha tingut el que es diu hiverns, hiverns i estius, diguéssim. Llavors, durant diversos anys, la intel·ligència artificial ha estat completament inutilitzada i desprestigiada perquè no tenia cap mena de base en el món de la informàtica. Avui en dia estem potser al top més alt que hi ha hagut mai a la història de la intel·ligència artificial i, òbviament, amb això ve tota aquesta esperança del que serà el futur, etc. Com tot, sempre… Jo soc dels que crec que sí que s’acabarà utilitzant per a moltes coses. Crec que té usos que potser ara com ara no són molt clars, però que ja s’aniran veient… Sí, hem de pensar que els models d’estil XatGPT, això fa un any que estan voltant i la màquina de vapor fins al cap de 20 anys que es va inventar no es va desplegar com a tal en vaixells, etc. Llavors, hem d’anar veient a veure com es fa servir, però, sens dubte, crec que hi ha molts usos que se li poden donar. Que ens substituirà, que ens destrossarà, que ens deia… Jo no crec en aquest catastrofisme tan bèstia. Si deixés de ser la mitjana de les coses i es convertís en alguna cosa real, és a dir, en una cosa que fos capaç de produir idees noves, llavors em faria més por. Però com que de moment no és així, cap problema.

Víctor: Aleshores, si et dic que t’imaginis el nostre món d’ara d’aquí a 50 anys, per exemple, tu com te l’imagines?

Joan: No ho sé. Possiblement tot pols per culpa d’alguna guerra però per la resta… No, no. Amb relació a la intel·ligència artificial no puc fer cap mena de predicció ni res. Segurament aquest hype anirà desapareixent i es convertirà en unes aplicacions molt concretes i molt reals que poden canviar moltes coses, però no sabem fins a quin punt. Segurament sí. Segurament canviarà molt el món. Tothom pot veure que alguna cosa hi ha. I quan tothom pot veure que alguna cosa hi ha, possiblement alguna cosa es crearà. Encara no estem aquí. Crec que encara no hi ha aquesta aplicació màgica dels models que tothom diu. Però crec que eventualment hi serà i que tothom li canviarà la vida d’una manera o d’una altra. No sé si positivament o negativament. Això és un debat molt més enllà i que no té res a veure amb els enginyers ni amb res d’això. Hauria de fer algú altre més informat i amb més capacitat que jo.

Pau: Encara que no hi hagi una aplicació extraordinària, potser sí que hi haurà un conjunt d’aplicacions que entre totes elles sí que suposaran un canvi. Però bé, jo viatjo… Si parlés amb en Pau de fa un any i uns quants mesos abans del xat GPT, de fet el mateix dia que va sortir i un amic em va venir eh, Pau, has vist això que ha sortit? Li pots demanar un munt de coses. Jo dic que això no m’ho crec. No m’ho creia fins que ho vaig veure, ho vaig provar i vaig dir uau! Això què és això? I vull dir que me’n feia creus. Llavors poden sortir coses molt interessants, però bé, està bé saber la teva opinió. Llavors el que està clar és que les empreses que han liderat molts desenvolupaments tecnològics hi estan apostant molt fort.

Joan: Sí, sí, de fet el discurs del CEO de Google, va ser bastant com extrema dient que això era el “no va a más del no va a más” i que tot passaria per aquí, que tot era això i que bàsicament tot això. Jo què sé.

Pau: Qui està fent, qui està contribuint més al seu desenvolupament?

Joan: Van ser la gent que fa 8-9 anys van dir no, nosaltres el que volem és crear una intel·ligència artificial general, una intel·ligència artificial que ho faci tot i per tot i que sigui capaç de resoldre tasques de tothom. Aquesta gent eren dos grups de gent completament fora de sèrie i molt excepcional, però també molt somiadors perquè tothom els deia que estan bojos, que no se n’ensortirien, que no sé on anaven a parar. L’únic que van rebre finançament de grans actors del panorama tecnològic actual i bueno, DeepMind, ara ja ni tan sols existeix, ara és Google DeepMind, no? Ja veiem amb qui tracta, és Microsoft i el poder de Microsoft o hem vist amb la crisi que està passant amb Altman últimament. Vull dir que ja hem format part del gran panorama tecnològic actual. Llavors, són aquests dos grans actors els que bàsicament han fet els passos que ens han impressionat a tots. Realment han sigut aquests dos grans actors. Empreses privades i completament tancades que no alliberen res i que fan ciència tancada i retancada. És terrible.

Víctor: A prop de la ciència oberta.

Joan: Després hi estem la resta del món i intentem seguir una mica com podem els passos d’aquests gegants.

Pau: I en el vostre cas, la feina sí que és oberta.

Joan: Sí, qualsevol desenvolupador, tothom pot accedir i tot ho pot veure. Tot el que podem. Se’ns va criticar en cert moment perquè certes dades amb les quals havien entrat models no les havien fet públiques, però això era perquè les havien tret de la Biblioteca Nacional Espanyola i hi havia certs convenis, certes coses que no estava clar a les llicències, llavors hi havia llicències que no es podien publicar. Sempre que es pot, es publica. Sempre tot s’intenta publicar. Això sí. Estem en un temps una mica d’incertesa i suposo que ja el temps decidirà cap on evoluciona tot.

Víctor: Joan, cap al final del RecerCA’T fem sempre el minut d’or. Una petita secció on et donem el màxim d’un minut perquè ens deixis un missatge, un consell o una reflexió general per tota aquella gent que ara mateix ens està escoltant. Pot estar relacionat amb la intel·ligència artificial o no, com tu vulguis, així que endavant.

Joan: Quina pressió. Potser parlaré de les dades. Els models que estem fent són passatgers. Són models que d’aquí dos anys estaran obsolets. Són models que se substituiran per altres models. El que queda són les dades. Llavors, fer un reclam a tothom que vulgui i pugui donar dades, fer públiques les dades que tingui, sobretot grans tenidors de dades, diguéssim que és el nou or de la nostra societat. Sí, dir això, que les dades és allò que persisteix i queda. No sé si…

Pau: Algú missatge cap als usuaris? Per exemple, tenim entès que iniciatives per recopilar la veu dels catalanoparlants…

Joan: Això era… Sí, sí. Teníem la campanya oberta de Common Voice. Això va ser bastant impressionant durant l’any passat, però diria que aquest any ja estan en altres factors. No sé si les dades ja van ser més que suficients per entrar en aquell moment, però sempre va bé. O sigui que Common Voice és una iniciativa molt bonica, de donar la teva veu, si la gent vol continuar fent-ho. Segur que sou benvinguts allà. Però, bueno, més enllà d’això, intentar que sobretot les empreses públiques i privades que tenen grans dades que les comparteixin, i nosaltres intentarem fer el mateix amb tot el que tenim. Això, sempre.

Pau: Magnífic.

Víctor: Bé, per acabar, Joan, tot un clàssic també d’aquesta primera temporada del RecerCa’T són les recomanacions. Volem que ens recomanis un plat, un lloc i una pel·lícula. A veure… Quin és el plat que millor fas?

Joan: Ah, el plat que millor faig. A mi m’agrada molt l’arròs de muntanya. Quan puc, el faig. Però, bueno, si hagués d’anar a menjar a algun lloc, potser a Tregurà. Tregurà és un lloc on es menja fantàstic, un restaurant brutal amb unes vistes espectaculars de la muntanya. On és? A Tregurà. És la fonda de Tregurà, diria que es diu. És espectacular. I què més m’has dit?

Víctor: El lloc i una pel·lícula, o pot ser un llibre, o com vulguis. Bueno, el lloc, suposo que… Bueno, en realitat, va, per què no? Àger, al congost de Mont-rebei, al costat, hi ha un poblet que es diu Àger, que és absolutament fantàstic. Hi ha l’observatori d’Àger, que és espectacular, hi ha la muntanya de Montsec, que és brutal, i si pots fer parapents, si pots fer moltes coses…

Víctor: Pots dir l’altre lloc, si vols, que crec aquí.

Pau: Pensàvem que escombraries cap a casa.

Joan: I no, no, no he escombrat cap a casa. Home, com no el Montseny? Però ja està massificat. No vingueu al Montseny, si us plau.

Pau: El Montseny és molt lleig.

Joan: No hi ha res, ni el millor panettone d’Espanya, ni res.

Pau: Molta contaminació. Que poc se’n parla avui, els tres del Baix Montseny.

Joan: Hòstia, és veritat.

Pau: Equip complet.

Víctor: Que fort. Falta el llibre o pel·lícula o…

Joan: L’últim llibre que he llegit així, que m’ha encantat, ha sigut El Subastador. És bastant espectacular.

Pau: Ja sabeu, podeu agafar la llibreteta i apuntar.

Víctor: Podríem ajuntar totes les recomanacions de tots els convidats i fer…

Pau: una guia, la guia de Ciència Oberta.

Víctor: Exacte. Bé, doncs, amb aquestes recomanacions ens hem d’anar acomiadant ja. Moltes gràcies, Joan, per estar avui amb nosaltres i també per la teva tasca diària.

Joan: Moltíssimes gràcies a vosaltres per convidar-me i donar-me aquest espai per parlar.

Víctor: A tu també, Pau, i a tot l’equip del RecerCA’T, Quim, Marc, Agnès, Víctor, Pol. Gràcies a tots plegats.

Pau: Moltes gràcies, Víctor.

Víctor: I bé, aquest és el darrer episodi de la primera temporada del RecerCA’T i per això volem agrair especialment a la Fundació Catalana per a la Recerca i la Innovació, pel seu suport i pel seu finançament, sense el qual res d’això no hauria estat possible. Fins a la temporada que ve!

Deixa-hi un comentari Cancel·la les respostes

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *

COMENTARI

Nom *

Correu electrònic *

Lloc web

Quan responguis amb un comentari, estàs donant el teu consentiment exprés al tractament de les teves dades segons el Reglament General de Protecció de Dades (RGPD). Estàs informat que el responsable de protecció de dades és en Marc Canela, president de l’Associació de Divulgació Científica Ciència Oberta. La finalitat és aportar un comentari en aquest contingut de la web, sempre amb la legitimació del teu consentiment. En qualsevol moment podràs exercir els teus drets de rectificació, accés, limitació o supressió de les teves dades.

He llegit i accepto la Política de privadesa *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Com entrenar un model de llenguatge extens en català amb en Joan Llop Palao23 min de lectura

Transcripció de l’episodi

Sobre l'Autor/a

Equip RecerCA'T

Deixa-hi un comentari Cancel·la les respostes

Buscar

Segueix-nos

Twitter

Instagram

Contingut recent

Uneix-te al butlletí setmanal

Enhorabona! T'hi has unit correctament. Ben aviat rebràs un e-mail.