Utilizzare il linguaggio naturale per interrogare database di articoli scientifici correlati al SARS-CoV-2 ed estrarre facilmente informazioni utili nella lotta al Covid-19. E’ quanto sono riusciti a fare tre studenti del corso di laurea in Data Science and Scientific Computing dell’Università degli Studi di Trieste, sviluppando un motore di ricerca innovativo basato sui più avanzati modelli di intelligenza artificiale, che permette di effettuare rapide e precise “ricerche semantiche” nella miriade di pubblicazioni esistenti sul tema.

Nel 2020 sono già oltre 4mila gli studi pubblicati sul virus SARS-CoV-2 e su Covid-19 in tutto il mondo, a cui si aggiungono più di 40mila articoli relativi a vari coronavirus e patologie da essi causate. Un tale volume di produzione scientifica rende impossibile  a medici e ricercatori tenere il passo con  l’acquisizione di nuove conoscenze. Nasce da qui l’idea confluita nel progetto “COVID-19 Semantic Browser”, realizzato in collaborazione con Area Science Park e l’Associazione Italiana di Linguistica Computazionale. Obiettivo: facilitare la condivisione delle conoscenze nella comunità scientifica e accelerare lo sviluppo di farmaci adeguati e l’individuazione di un vaccino.

Ma qual è l’elemento di novità che rende questa soluzione unica e diversa rispetto ad altri motori di ricerca esistenti? È il ricorso alla ricerca semantica, diversa dalla ricerca con parole chiave alla quale siamo normalmente abituati. In pratica, più il sistema viene interrogato con frasi articolate e descrittive, migliore sarà il risultato ottenuto. Ad esempio, digitando “What is the impact of COVID-19 on newborn babies and pregnant women?” si otterranno risultati migliori che ricercando “Covid-19 pregnant women”.

“Di sistemi simili al nostro ce ne sono molto pochi in circolazione – sottolinea l’ideatore Gabriele Sarti, studente alla laurea magistrale in Data Science and Scientific Computing dell’Università degli Studi di Trieste e borsista alla SISSA -. La particolarità del nostro Covid-19 Semantic Browser è che permettiamo agli utenti di esplorare i paragrafi più rilevanti all’interno di ogni articolo, partendo da un’interrogazione effettuata con linguaggio naturale. Cliccando sui risultati si ha l’accesso diretto all’articolo via link e, se presenti, alle informazioni più pertinenti. Al contrario di molti altri sistemi, inoltre, utilizziamo reti neurali allenate su grandi quantità di pubblicazioni in ambito biomedico per massimizzare l’efficacia della ricerca”.

Il sistema è installato sulle piattaforme IT di Area Science Park ed è attualmente disponibile in beta test all’indirizzo covidbrowser.areasciencepark.it. “Supportiamo con entusiasmo  il lavoro di Gabriele e dei suoi colleghi che stanno sviluppando questo servizio innovativo e di potenziale grande utilità – spiega Stefano Cozzini, direttore dell’Istituto Ricerca e Tecnologie di Area Science Park -. All’interno del progetto ARGO siamo infatti in grado  di mettere a disposizione l’infrastruttura IT necessaria a sviluppare e ospitare il servizio che, a regime , richiederà tecnologie hardware  ben dimensionate in cui integrare strumenti software avanzati  per fare “scalare”  il sistema in maniera trasparente ed automatica.  Oltre al supporto in termini di HW e SW, siamo pronti a garantire anche personale con le giuste competenze”.

Un nuovo prototipo è attualmente in fase di sviluppo grazie alla collaborazione di altri due studenti del DSSC, Tommaso Rodani, collaboratore di eXact lab, e Marco Franzon, borsista dell’istituto IOM-CNR, ideatori di uno strumento analogo ospitato gratuitamente sull’infrastruttura di eXact lab srl. Il progetto vede inoltre il contributo di Mirko Lai dell’Università degli Studi di Torino e Francesco Zuppichini di PwC Zurigo.