Ridire 2.0: online la nuova release del web corpus promosso dalla SILFI
È disponibile Ridire 2.0, la nuova release di RIDIRE.it – Risorsa Dinamica Italiana di Rete, il web corpus concepito nel 2006-2008 dalla SILFI per documentare l’italiano utilizzato in rete nei domini più rappresentativi della lingua e della cultura italiana.
La nuova versione ripropone il corpus in un’infrastruttura aggiornata, con una drastica riduzione del rumore prodotto dall’estrazione automatica dei testi dal web, come duplicazioni, problemi di formato e boilerplate. L’accesso ai dati risulta oggi più semplice e veloce, grazie all’implementazione nell’ambiente KonText, che consente ricerche sull’intero corpus e sui suoi sotto-corpora.
RIDIRE costituisce una risorsa di grande rilievo per lo studio dell’uso linguistico, della fraseologia italiana e delle varietà settoriali. La base dati interrogabile conta circa 1,3 miliardi di parole ed è articolata in domini semantici e funzionali, tra cui letteratura, moda, design e architettura, cucina, sport, religione, arti figurative, cinema, musica, informazione, economia e affari, amministrazione e legislazione.
http://corpora.dilef.unifi.it/query?corpname=ridire
Le occorrenze del corpus sono lemmatizzate e annotate per parte del discorso; le funzioni di ricerca permettono di estrarre liste di frequenza, concordanze, collocazioni e colligation. Ridire 2.0 è mantenuto in rete dal Laboratorio di Informatica Umanistica del Dipartimento di Lettere e Filosofia dell’Università di Firenze ed è liberamente consultabile online.
