Indicizzazione

L'attività di indicizzazione prevede il popolamento dei database alfanumerici associati alle immagini digitalizzate. Si può operare in due diversi modi:

  • creando indici idonei a consentire l'accesso, attraverso diversi criteri di ricerca, ai documenti digitalizzati su cui è riportato il contenuto informativo cui si intende accedere;
  • effettuando il riconoscimento ottico del documento ( OCR – Optical Character Recognition) per l’indicizzazione dell’intero testo digitalizzato (indici full-text).

Indicizzazione: indicizzazione

Nel primo caso si effettua un’analisi preliminare allo scopo di individuare il modello di database da utilizzare: si valutano i dati da indicizzare, come strutturare le tabelle e le relazioni tra le stesse. Generalmente si utilizzano database relazionali

Nel secondo caso si opera con procedure software di OCR. Su richiesta, è possibile effettuare un’opera di revisione e correzione dei dati generati automaticamente, allo scopo di incrementare la percentuale di caratteri correttamente interpretati. I dati vengono quindi inseriti in database testuali.

Gli indici vengono creati utilizzando DIGIT! una procedura software sviluppata da Adacta.
DIGIT! consente un elevato grado di flessibilità in relazione al numero e al tipo dei campi da indicizzare ed è ottimizzato con strumenti di controllo (vocabolari, authority file, controlli ortografici) che garantiscono un’elevata qualità del dato inserito.
L'uscita dei dati è in formato ASCII comma delimited che consente di importare gli indici in qualunque DB relazionale (Microsoft Access, Microsoft SQL, Oracle, MySQL, etc…), sia che si tratti di database gestiti da software commerciali o già utilizzati dal Cliente, sia che si tratti di procedure software appositamente sviluppate da Adacta su specifiche del Cliente.

Qualità
Tutte le attività ed i processi vengono svolti da Adacta secondo le procedure del Sistema di Gestione Qualità imposte dalla norma UNI EN ISO 9001 : 2000.

Le procedure prevedono una serie di controlli che consentono di raggiungere un risultato ottimale.

Il controllo sulle voci a bassa ricorrenza, ad esempio, permette una verifica rapida e precisa anche su database con un altissimo numero di parole. La verifica viene operata, previa creazione di un vocabolario contenente tutte le parole e la loro frequenza, considerando il fatto che ad una parola a bassa ricorrenza può corrispondere un errore nella digitazione.

Il controllo campionato doppio consente di raggiungere un altissimo livello di qualità. Esso prevede il doppio inserimento effettuato da operatori diversi e il successivo confronto automatico dei record prodotti. Il software segnala le differenze, proponendo la scelta di uno dei due termini o la nuova digitazione.
Stabilito il parametro di qualità LMQR (Limite di Media Qualità Risultante), la procedura viene inizialmente applicata su un campione estratto casualmente e se la percentuale di errore supera la soglia stabilita, la verifica viene estesa ad un campione più vasto. Nel caso in cui la percentuale di errore sia ancora elevata rispetto al parametro definito, si procederà ad una nuova indicizzazione dei dati.

Definizione dei criteri di qualità.

Per definizione la qualità è raggiunta quando vengono inseriti senza errore i dati rilevati sul documento originale. In alcuni casi si può valutare l'opportunità di effettuare un'indicizzazione che non si limiti alla sola registrazione dei dati riportati sul documento, ma effettui sul dato un'opera di revisione, tipicamente di normalizzazione.

Garanzia

Adacta garantisce la massima qualità possibile in relazione all'attività di indicizzazione.
Generalmente si opera con l'obbiettivo di registrare fedelmente i dati riportati sul documento. In alcuni casi però, si può evidenziare la necessità di intervenire con opportune correzioni, come ad esempio quando si decida, in accordo con il Cliente, di operare una qualche normalizzazione dei dati.

In ogni caso, per migliorare ulteriormente i risultati, Adacta, su richiesta, è in grado di fornire al Cliente strumenti software per la rettifica diretta dei dati non ritenuti congrui.