Settembre 29, 2023
Dal 18 al 22 settembre 2023, siamo stati parte attiva della European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, tenutasi nella città di Torino.
L’epicentro di questa esperienza è stato l’OGR Torino, il fulcro dell’innovazione e dell’arte della città, che ha fornito un ambiente stimolante per l’apprendimento e la condivisione di conoscenze di spicco nel campo.
In questo ambiente, i nostri esperti, Angelo Impedovo e Giuseppe Rizzo, hanno avuto l’opportunità di presentare un nostro studio.
Non è un caso che questa conferenza sia considerata la punta di diamante dell’Europa nel Machine Learning e nell’estrazione di conoscenze dai database, con una storia di oltre 20 anni di successi e conferenze in tutto il continente.
Siamo entusiasti di aver fatto parte di questo evento straordinario, che ha rafforzato ulteriormente la nostra determinazione nell’ambito della tecnologia e dell’innovazione.
Veniamo ora al progetto che abbiamo presentato. Di seguito le informazioni salienti.
Leggi anche: I ricercatori Niuma presentano la soluzione di riconoscimento documentale all’iiWAS
Negli ultimi anni, il problema del riconoscimento Open-set ha assunto crescente importanza in una vasta gamma di contesti, dai sistemi di intelligenza artificiale alle applicazioni del mondo reale. Questo problema si verifica quando un sistema deve determinare se un’istanza (ad esempio un documento di testo) appartiene a una delle classi note durante l’addestramento o se è un “caso sconosciuto”. Questo è un compito più realistico rispetto alla classificazione multiclasse tradizionale, soprattutto in scenari in cui il numero di classi può aumentare in modo imprevisto nel tempo. In tali casi, la classificazione tradizionale non è praticabile poiché richiederebbe di addestrare un classificatore per ogni possibile classe, il che può essere oneroso o addirittura impossibile.
In un contesto simile, dove nuove classi possono emergere nel tempo, il riconoscimento Open-set diventa una soluzione preferibile. La principale sfida in questo ambito è gestire la crescente dimensionalità dei dati, un problema noto come “curse of dimensionality”. Questo problema si verifica quando il numero di dimensioni (o caratteristiche) nei dati aumenta, rendendo il dataset più complesso da analizzare.
Nell’articolo presentato a Torino, i nostri autori propongono l’utilizzo delle fattorizzazioni non negative (NMF) come tecnica di riduzione della dimensionalità per migliorare l’accuratezza del riconoscimento Open-set su dati testuali. La NMF è una tecnica che suddivide una matrice di dati in due matrici non negative, consentendo di scoprire modelli nascosti nei dati. Nel caso dei dati testuali, la NMF è in grado di estrarre caratteristiche semantiche concettuali dai documenti.
La tesi principale è che l’applicazione della NMF possa migliorare l’accuratezza del riconoscimento Open-set su dati testuali, consentendo al modello di riconoscere documenti in base a caratteristiche concettuali piuttosto che a termini specifici. I risultati preliminari ottenuti su dataset di benchmark supportano questa affermazione, aprendo la strada a ulteriori sviluppi futuri.
Per valutare l’efficacia di questa proposta, gli autori hanno condotto esperimenti su due dataset pubblici: il dataset di Clausole Legali Kaggle e il dataset CUAD. Hanno poi esaminato come il rango della NMF influisce sull’accuratezza del riconoscimento e hanno valutato le prestazioni del modello in diverse situazioni in cui il numero di classi sconosciute varia.
In conclusione, questo articolo dimostra l’importanza della riduzione della dimensionalità tramite la NMF nel contesto del riconoscimento Open-set su dati testuali. Inoltre, mostra come questa tecnica possa migliorare l’accuratezza del riconoscimento di classi sconosciute, pur mantenendo la capacità di riconoscere correttamente le classi conosciute.
Questa ricerca fornisce un contributo significativo alla comprensione e all’ottimizzazione del riconoscimento Open-set su dati testuali.