Pillole di WikiData

Come già annunciato in questo post, la comunità OpenPuglia si prepara al lavoro di costruzione di un dataset “ad alta potenzialità” sui luoghi della cultura della regione a partire dal DB unico MiBACT. Una parte della giornata del prossimo 18 dicembre ci vedrà impegnati nel portare in Wikidata alcuni dei dati che ci apprestiamo a raccogliere, normalizzare ed integrare: in realtà la comunità è già alacremente a lavoro su ciò (vi aggiorneremo a breve e più dettagliatamente). Intanto che le tastiere si scaldano, vi proponiamo una breve pillola su Wikidata, che cosa è, a cosa serve, come si usa. Tempo di lettura previsto: 3 minuti!

logo wikidata

Logo di Wikidata: esso riproduce la scritta “wiki” in codice Morse (che corrisponde a • – – • • – • – • •) mantenendo i colori del logo della Wikimedia Foundation.

Cosa è ed a cosa serve

Wikidata è un database costruito con il software Wikibase, consultabile e modificabile da utenti umani e da bot, che fornisce dati strutturati ed univoci (come ad esempio le date di nascita o le coordinate geografiche etc.) agli altri progetti della Wikimedia Foundation (come ad esempio Wikipedia) e consente loro un accesso centralizzato. Esattamente come fa Wikimedia Commons con i file multimediali. In estrema sintesi Wikidata è un database orientato al documento e focalizzato intorno ad oggetti definiti “items”, Ciascun item ha una propria pagina dove sono riuniti tutti i dati riferitigli ed è identificato per mezzo di un codice univoco, costituito dalla lettera Q seguita da cifre numeriche (es. Q###) o da un link ad una pagina esterna o da una combinazione fra label (= etichetta) e descrizione.

Il codice univoco Q### è utile a collegare le differenti versioni linguistiche di uno stesso item ed è dunque utile più alle “macchine” che agli “uomini”. Si sta così costruendo una sorta di tassonomia su cui strutturare i progetti Wikimedia, in cui la classi sono gli items, i livelli gerarchici i cosidetti “statements” e gli attributi le cosidette “propertiers”. Le properties (qui una lista), definite sulla base del parametro key-value pairs, sono “descrittori” dei valori. A ciascuna property viene perciò assegnato un particolare valore (il “dato” vero e proprio) e dunque gli corrisponde una tipologia di dati (ad esempio: data di nascita: gg/mm/aa; coordinate geografiche: lat/long etc.).

La strutturazione dei dati in Wikidata è simile a quella dei linked data, basata sulla tripla soggetto-predicato-oggetto, corrispondente a item-property-valore assegnato (ad esempio, questa è una applicazione basata sui linked data Wikidata).

Come si usa: la Terra secondo Wikidata

Ora scendiamo nei dettagli! Ciascun item è costituito dai seguenti elementi: label, description, alias, statements. Proviamo a capire meglio cosa sono attraverso la disamina della pagina Wikidata sulla Terra.

 Earth

Label: Earth

Poiché il codice univoco Q### è “poco utile agli uomini”, per rintracciare facilmente ciascun item è necessario darle un titolo immediatamente riconoscibile ed esplicativo (Earth). A differenza del codice Q###, i label non sono univoci. Earth ad esempio è label per item differenti tra loro: un gruppo musicale americano, un trio vocale giapponese, un video-gioco, una città del Texas etc.. La successiva descrizione è dunque fondamentale per la disambiguazione dei labels: ci possono essere più items con lo stesso label, ma codici Q### diversi e descrizioni diverse.

Description: third planet in the Solar System

La descrizione deve essere breve e seguire lo stesso principio del “punto di vista neutrale” che informa la stesura delle voci su Wikipedia. Non a caso un buon metodo per stendere la descrizione di un item su Wikidata è utilizzare la descrizione dell’eventuale voce corrispondente su Wikipedia stessa.

Alias: Terra, Gaia, Sol-3, the Blue Planet, World (etc.)

Gli alias sono nomi alternativi di uno stesso item, nella stessa lingua o in lingue diverse (es. alias dell’item Earth/Terra in italiano).

Statements: deepest point, part of, shape, has part (etc.)

Per poter utilizzare Wikidata, le informazioni vengono strutturate attraverso statements. Ad esempio su Wikipedia alla voce “Terra” si legge: “La Terra è il terzo pianeta in ordine di distanza dal Sole e il più grande dei pianeti terrestri del sistema solare, sia per quanto riguarda la massa che per il diametro” (voce consultata in data 01/12/2013). Le informazioni contenute in questa descrizione vanno così strutturate:

Item: Earth/Terra → statements: part of: Solar System/ Sitema Solare; mass: … ; diameter: … etc.

Ciascun statement è composto dunque da una property cui viene associato un determinato valore.

I luoghi della cultura su Wikidata

Abbiamo intenzione di portare in Wikidata items relativi a luoghi della cultura della nostra regione. Immaginando per esempio di costruire un item relativo al Museo Archeologico Provinciale di Bari (di cui non esiste ancora un sito web ufficiale), i vari elementi che costituituenti potrebbero essere i seguenti:

  • label: Museo Archeologico Provinciale;
  • description: collezione permanente di reperti dall’età preistorica al medioevo significativi per la storia della regione Puglia;
  • alias: Museo Archeologico di Santa Scolastica;
  • statements (alcuni esempi possibili): coordinate location: 41°13’21.85” N, 16°87’04.85” E; country: Italia; located in the administrative territorial entity: Bari; Commons gallery: (…); official website: (…); date of official opening: (…); visitors per year: (…) …

Speriamo che queste "pillole" di Wikidata possano essere un buon punto di partenza per il lavoro che ci aspetta. Ti aspettiamo allora venerdì prossimo!