Senén Barro: "É fundamental que as máquinas incorporen o galego para que a lingua sobreviva"
Sentar as bases para facer realidade a comunicación en galego con asistentes de voz como Siri ou Alexa e desenvolver ferramentas dixitais para o procesamento automático da nosa lingua, tanto oral como escrita, son algúns dos obxectivos do Proxecto Nós, que botou a andar no 2021 e cuxos froitos son de libre acceso para empresas e institucións. O director científico do Centro Singular de Investigación en Tecnoloxías Intelixentes (Citius), o catedrático de Ciencia de Computación e Intelixencia Artificial Senén Barro (As Pontes, 1962), ten moi claro que se unha lingua non participa da "convivencia entre máquinas e persoas" na que estamos inmersos, "co tempo, acabará desaparecendo".
Como avanza a recollida de datos de voz en galego en Common Voice?
Nos últimos meses do ano fixéronse 17 xornadas de recollida de voces noutros tantos concellos, con máis dun milleiro de doantes. Recolléronse 151 horas de alta calidade e diferentes variantes dialectais, o que supuxo máis que duplicar as horas reunidas ata o momento. É unha cifra moi alta, sobre todo tendo en conta que temos máis formas de recoller voces. Os doantes poden facelo tamén en liña desde as súas casas e imos comezar unha campaña entre os estudantes da USC na que temos postas moitas esperanzas.
"Só achegándolles estes recursos lograremos que as empresas ofrezan produtos e servizos competentes en galego"
A decisión de recoñecer créditos de libre configuración ao estudantado busca darlle un pulo á participación?
Efectivamente. Trátase, como no caso da recollida en concellos, dunha iniciativa conxunta da USC e a Consellería de Cultura, Lingua e Xuventude. Pensamos que pode funcionar moi ben. Non só polo valor que pode ter para o estudantado o recoñecemento desta actividade con créditos académicos, senón tamén porque se trata dunha actividade na que se dá unha formación moi valiosa sobre o proxecto e sobre o ámbito das tecnoloxías da lingua e a súa importancia para a nosa lingua en particular. Na miña época de estudante, teríame sumado a unha iniciativa así, por interese formativo e por compromiso co galego.
Cantos créditos poderán obter os estudantes e que terán que facer?
Poderán obter un crédito de libre configuración pola súa colaboración e pola formación que comporta. Hai que doar polo menos 25 horas de voz a través da plataforma Common Voice, dispoñible en internet.
Precisamos ter rexistros de duración suficiente do maior número de persoas, diversos acentos e variedades dialectais
Despregarán máis accións para implicar outros actores da sociedade?
Sen dúbida. Por moi exitosa que sexa esta campaña, que xa o está sendo, cantos mais datos teñamos e máis diversos e representativos sexan da realidade dos galegofalantes, mellor. Non se trata de ter moitas horas de moi poucas persoas, senón de ter rexistros de duración suficiente do maior número de persoas, o que suporá diversidade de idade, xénero, acento e variedades dialectais.
Como repercuten iniciativas como esta na saúde do galego cando o último informe do Ige nos avisa de que o seu uso xa é minoritario?
Que as máquinas incorporen o galego entre as linguas nas que se desenvolven vai ser fundamental para un uso xeneralizado e incluso para a supervivencia do galego no tempo. Vivimos nunha sociedade de persoas e máquinas, e cada vez compartimos máis con estas, ata chegar á percepción de que convivimos con elas. Cada vez son máis competentes no uso da linguaxe e a interacción realízase cada vez máis nas linguas naturais, as nosas. Se unha lingua non está apenas presente nesa convivencia, terá menos incentivos para ser aprendida e usada e, co tempo, acabará desaparecendo. Podemos pensar que iso non ocorrerá dun día para outro, pero aínda que eu pola miña idade non vexa esa traxedia, se non fago todo o posible por evitala serei cómplice e ata culpable do que ocorra.
"Non estamos aínda ao nivel do catalán. Investiu moitos recursos"
Cando escoitaremos a Alexa e Siri falando galego?
Non depende do Proxecto Nós, realmente, pero pode axudar a estas ferramentas tecnolóxicas a ser competentes no uso do galego e que o falen, o escriban ou o traduzan. Os datos que imos obtendo e mellorando póñense a disposición de quen os queira utilizar, tanto da comunidade académica e investigadora como das empresas. De feito, xa se están a utilizar e esta é a primeira forma na que o proxecto contribúe a mellorar o estado do galego nas tecnoloxías da linguaxe. Con estes datos a libre disposición, as compañías poden mellorar a competencia no uso do galego dos seus modelos de IA, ou desenvolver aplicacións como o subtitulado en galego ou calquera tipo de produto ou servizo. En xeral, as empresas non van investir os recursos necesarios para obter os datos e as ferramentas tecnolóxicas básicas para que os seus produtos e servizos sexan competentes en galego. Non lles sae rendible o esforzo. Só achegándolles estes recursos conseguiremos que o fagan. É unha parte do gran valor que achega o proxecto.
Cataláns e vascos fixeron os deberes neste campo?
Os cataláns levan tempo facendo campañas con moito impacto para a recollida de voces. En Common Voice hai máis de 4.000 horas, superando amplamente ao castelán e incluso algo por riba do inglés, e a gran maioría están validadas, algo importante para garantir a súa calidade de cara ao uso dos datos en procesos de adestramento dos modelos de intelixencia artificial que aprenden dos mesmos. No caso do éuscaro e do galego, melloramos progresivamente, pero non estamos aínda ao nivel do catalán, que investiu moitos recursos.
Os fondos europeos estanvos a axudar na despregadura da folla de ruta?
Neste momento, son o sustento do Proxecto Nós. O Ilenia, que ten un horizonte a tres anos, do 2023 ao 2025, foi encadrado no Perte da Nova Economía da Lingua. Conta cun investimento de 7,5 millóns de euros, dos que 2 están sendo executados pola USC. Esperamos asinar un novo convenio en breve para un desenvolvemento complementario, encadrado no programa Alia de modelos de linguaxe nas linguas do Estado, impulsado polo Goberno de España.
"Estamos traballando nun recoñecedor de voz capaz de transcribir a fala a texto
Hai algunha ferramenta en uso que vise a luz grazas ao Proxecto Nós?
Si. Aínda que estes primeiros anos son sobre todo para obter datos tanto de voz como de texto, tamén avanzamos no desenvolvemento de ferramentas tecnolóxicas e na creación de modelos de lingua competentes no uso do galego, algo do que carecen, en xeral, os denominados modelos de linguaxe a grande escala que desenvolven sobre todo os xigantes tecnolóxicos. Entre as ferramentas está un tradutor galego, castelán e inglés, que pronto será capaz de traducir con alta calidade en todas as linguas do estado e moitas máis, a través do Proxecto Ilenia, que desenvolvemos cos centros HiTZ, da Universidade do País Vasco, o Barcelona Computing Center e o Cenid, da Universidade de Alacante. Ademais, traballamos un sintetizador de voz a partir de texto e un recoñecedor de voz capaz de transcribir a fala a texto. Iniciamos o desenvolvemento de varios demostradores tecnolóxicos para aplicacións e dominios concretos, que estarán operativos este ano.