Dalla carta ai database (Il catalogo e il suo contesto. Terza parte)

Il catalogo, dalla carta al database

Il libro e i cataloghi a schede erano uno strato di intestazioni appoggiato sulle descrizioni bibliografiche, che rappresentavano il posseduto della biblioteca. Questa modalità cambiò, tuttavia, quando i medesimi dati vennero immagazzinati nei sistemi di gestione di database (DBMS) e resi disponibili agli utenti attraverso uno schermo di computer.

Prendendo un esempio molto semplice, nel catalogo a schede un singolo libro posseduto dalla biblioteca, con autore, titolo e soggetto, materializzava tre schede separate, una per ciascuna intestazione. Tali schede venivano poi inserite, in ordine alfabetico, nelle loro rispettive posizioni all’interno del catalogo.

In questo senso, il catalogo è composto di schede per le intestazioni, ciascuna collegata alla relativa descrizione bibliografica. La maggior parte degli elementi posseduti dalla biblioteca sono rappresentati da più di una scheda nel catalogo.

Il catalogo è un catalogo di intestazioni.

Nella maggior parte dei cataloghi elettronici, la relazione tra intestazione e dati biliografici, invece, è invertita: il record con i dati bibliografici e le intestazioni è memorizzato una volta sola; i punti di accesso, analoghi alle intestazioni nel catalogo a schede, sono estratte nei vari indici che puntano tutti alla singola registrazione.

Questa cosa, in sé, potrebbe essere considerata un cambiamento minimo nel meccanismo del catalogo, ma in realtà diventa qualcosa di molto più importante.

Queste indicazioni suggeriscono soggetti all’utente una volta che egli abbia individuato un punto di accesso nel catalogo

Innanzitutto. l’utente non può vedere gli indici del database. Questo è tutto l’opposto del catalogo a schede, dove i punti di accesso erano ciò che l’utente vedeva e attraverso i quali navigava. Questi punti di accesso, nel migliore die casi, servivano come sistema di organizzazione della conoscenza che dava all’utente un contesto per le intestazioni.

Quando questo catalogo funziona bene, l’utente ha un certo grado di comprensione di dove si trovi nella biblioteca virtuale creata dal catalogo. Questo contesto potrebbe essere un’area di soggetti, oppure potrebbe essere il contesto bibliografico, per esempio l’edizione di un’opera.

Molti, se non proprio tutti i cataloghi online non presentano il catalogo in maniera lineare, come un elenco di intestazioni ordinato alfabeticamente. Le tecnologie di gestione dei database incoraggiano l’uso della ricerca (search) piuttosto che lo scorrimento lineare (browsing).

Anche se qualcuno fa una ricerca nelle intestazioni come stringhe di carattari ancorate a sinistra (“inizia con”), ottiene un insieme di risultati corrispondenti alla ricerca, non un punto in una lista alfabetica. Non c’è modo per navigare verso le intestazioni vicine. I dati bibliografici, inoltre, non forniscono né il contesto né l’ordinamento del catalogo. Dopo una ricerca per “cat breeds” l’utente vede lo schermo riempirsi di registrazioni bibliografiche, che tuttavia mancano di contesto, poiché molti risultati non mostrano all’utente l’intestazione o il testo che ha fatto sì che quello specifico elemento fosse recuperato.

Sebbene ciascuno di questi elementi abbia un’intestazione per soggetto contenente i termini “Cat breeds”, l’ordinamento dei risultati non corrisponde con quello dei soggetti. Le intestazioni, per i primi record recuperati, sarebbero, in ordine:

Cat breed
Cat breeds
Cat breeds – History
Cat breeds – Handbooks, manuals, etc.
Cat breeds
Cat breeds – Thailand
Cat breeds

Se anche il catalogo usasse un ordine logico e visibile, come alfabetico per autore e titolo, o per data più recente, non c’è modo per l’utente di recuperare, a partire dalla lista dei risultati, risposta alla domanda “Dove sono finito?”, come accadeva nel catalogo di intestazioni.

Nei primi anni 1980, quando Karen lavorava al primo catalogo online dell’Università della California, i catalogatori segnalarono subito questo comportamento del catalogo come problematico. Essi avrebbero voluto che il set di elementi recuperati fosse mostrato così:

Si noti quanto questa presentazione ricordi il catalogo in volume mostrato sopra.

A quel tempo, e forse ancora oggi, c’erano barriere tecnologiche che impedivano questa visualizzazione, principalmente legate all’ordinamento (sorting) di ampi insiemi di dati recuperati (e a quel tempo “ampio” era qualsiasi cosa che comprendesse più di poche centinaia di elementi). Un altro problema era che ogni record bibliografico poteva essere recuperato più di una volta in ciascun set; presentare i record più di una volta nei risultati, data la progettazione del database, sarebbe stato molto impegnativo. Non sappiamo se partendo da zero, oggi, queste funzionalità sarebbero più facili da realizzare, ma le modalità di ricerca e visualizzazione non sembrano aver fatto molti progressi dall’epoca di quei primi cataloghi.

Inoltre, sarebbe in ogni caso discutibile se un set di dati bibliografici recuperati da un database attraverso una query possano riprodurre il contesto del catalogo in maniera coerente. Questo è vero specialmente a causa della terza maggiore differenza tra il catalogo a schede cartacee e quello elettronico: la possibilità di cercare parole singole nella registrazione bibliografica invece che limitarsi a cercare intestazioni come stringhe di caratteri ancorate a sinistra. Lo spostamento verso la ricerca per parole chiave (keyword) fu contemporaneamente una fortuna e una disgrazia, poiché fu una delle principali cause della perdita del contesto nei cataloghi di biblioteca.

Parole chiave (Keyword)

Abbiamo visto come il grosso della conoscenza del contesto che poteva e doveva essere fornito dal catalogo è andato perduto dal momento che ci siamo cambiato la tecnologia del catalogo, passando dalla carta ai database, come effetto principale della ricerca per parole chiave sul contesto del catalogo.

KWIC e KWOC

Se non eri almeno un teenager negli anni Sessanta, probabilmente hai mancato l’era di KWIC e KWOC (che non era né un programma televisivo per bambini, né un duo di musica folk). Gli acronimi significano, rispettivamente, KeyWords In Context, e KeyWords Out of Context. Erano degli indici ai testi realizzati in forma di concordanza, i primi, però, redatti utilizzando il computer. Un indice KWOC era semplicemente una lista di parole e puntatori (come numeri di pagina, poiché non esistevano ancora i collegamenti ipertestuali). Un indice KWIC mostrava invece le parole chiave con alcuni altri termini accanto, oppure ruotava la frase in maniera tale che ciascun termine apparisse una volta all’inizio della stringa, ed erano ordinati alfabeticamente.

Se avessi la frase “KWIC is an acronym for Key Word in Context”, il tuo indice KWIC potrebbe mostrarlo in questo modo:

		 KWIC is an acronym for Key Word In Context
		Key Word In Context, KWIC is an acronym for
		acronym for Key Word In Context, KWIC is an
		            KWIC is an acronym for Key Word in Context
		acronym for Key Word In Context, KWIC is an

Si tratta di una visualizzazione che per noi oggi è poco attraente e non molto utile, ma per i primi utilizzatori di computer questo ha rappresentato un inizio eccitante rispetto alla possibilità di cercare qualsiasi termine in un testo.

Fino agli anni Ottanta, tuttavia, la ricerca per parole chiave non venne applicata ai cataloghi di biblioteca.

Prima delle Keyword, le intestazioni

Prima dell’esistenza della ricerca per keyword, quando gli utenti si trovavano a navigare in maniera lineare un indice alfabetico, dovevano affrontare la difficoltà di stabilire dove iniziare a entrare nel catalogo. Immaginiamo qualcuno che sta cercando informazioni sul Lake Erie. Sembra abbastanza semplice, ma accedendo al catalogo a L-A-K-E E-R-I-E non si trova alcun riferimento che possa essere rilevante. Ecco alcune intestazioni con LAKE ERIE:

	Boats and boating--Erie, Lake--Maps. 
	Books and reading--Lake Erie region.
	Lake Erie, Battle of, 1813.
	Erie, Lake--Navigation

Si noti che il lago è inserito sotto Erie, la battaglia sotto Lake, e alcune altre istanze compaiono piuttosto in basso nella lista delle intestazioni. Tutte queste intestazioni seguono regole che assicurano un certo tipo di consistenza, ma poiché gli utenti non conoscono tali regole, la consistenza potrebbe non essere visibile. In ogni caso, la difficoltà per gli utenti è capire con quale termine avviare la ricerca, che è fatta su intestazioni ancorate a sinistra.

Si potrebbe pensare che trovare nomi di persona fosse semplice, ma non è così. I nomi possono essere anche abbastanza complessi, con più componenti che sono trattati in maniera differente secondo un certo numero di fattori che hanno a che fare con gli usi delle diverse culture:

	De la Cruz, Melissa
	Cervantes Saavedra, Miguel de

Poiché è difficile capire da dove iniziare la ricerca, esistevano i riferimenti “vedi” e “vedi anche” per guidare gli utenti da una forma del nome o una frase a un’altra. Ciò avrebbe significato, tuttavia, che per includere ogni possibile punto di accesso che una persona avrebbe potuto scegliere, si sarebbe gonfiato il catalogo oltre qualsiasi utilità, per non parlare del fatto di quanto si sarebbe complicato, e sarebbe costato, il lavoro del catalogatore. Senza l’aiuto di un bravo bibliotecario di reference, la ricerca nel catalogo carta era una sfida dal risultato imprevedibile.

Quando abbiamo messo online il catalogo dell’Università della California, nel 1982, è certo che gli utenti fossero davvero contenti di scoprire che potevano digitare LAKE ERIE e recuperare ogni record in cui comparissero questo termini, a prescindere dall’ordine dei termini o da dove apparissero nell’intestazione.

La ricerca era, o almeno sembrava, più semplice.

Poiché sembrava più semplice, tutti hanno più o meno ignorato alcuni difetti della ricerca per parole. Innanzitutto, le parole sono solo stringhe, e in una ricerca le stringhe devono combaciare (con qualche possibile aggiustamento, come combinare termini singolari e plurali). In questo modo, la ricerca di “FRANCE” per recuperare tutte le informazioni sulla Francia, non sarebbe riuscita a ottenere altre versioni del termine, a meno che il catalogo non offrisse qualche espansione:

	Cooking, French
	France--Antiquities
	Alps, French (France)
	French--America--History
	French American literature

Il problema successivo è che il recupero per parole chiave, e in particolare per “parole chiave ovunque”, la ricerca che oggi è più popolare, fa perdere completamente qualsiasi informazione sul contesto che il catalogo potrebbe offrire. Una semplice ricerca per la parola chiave “darwin” ritorna risultato su un ampio arco di soggetti, autori e titoli.

Soggetti:

	Darwin, Charles, 1809-1882 – Influence
	Darwin, Charles, 1809-1882 — Juvenile Literature
	Darwin, Charles, 1809-1882 — Comic Books, Strips, Etc
	Darwin Family
	Java (Computer program language)
	Rivers--Great Britain
	Mystery Fiction
	DNA Viruses — Fiction
	Women Molecular Biologists — Fiction

Autori:

	Darwin, Charles, 1809-1882
	Darwin, Emma Wedgwood, 1808-1896
	Darwin, Ian F.
	Darwin, Andrew
	Teilhet, Darwin L.
	Bear, Greg
	Byrne, Eugene

Titoli:

	Darwin
	Darwin; A Graphic Biography : the Really Exciting and Dramatic 
	    Story of A Man Who Mostly Stayed at Home and Wrote Some Books
	Darwin; Business Evolving in the Information Age
	Emma Darwin, A Century of Family Letters, 1792-1896
	Java Cookbook
	Canals and Rivers of Britain
	The Crimson Hair Murders
	Darwin's Radio

Non possiamo ragionevolmente aspettarci che questo abbia senso per l’utente, perché, onestamente, senso non ne ha.

Nella prima versione del catalogo della UC, gli utenti dovevano scegliere un tipo di intestazione su cui cercare, come AU, TI, SU. Questo probabilmente riduceva gli errori della ricerca per keywords, ma di certo non li eliminava. In questo esempio, utilizzando una ricerca per titolo o per soggetto, l’utente avrebbe comunqe recuperato item con soggetti come DNA Viruses — Fiction, e Women Molecular Biologists — Fiction, mentre una ricerca per autore avrebbe recuperato comunque sia Java Cookbook sia Canals and Rivers of Britain. Qualcuno potrebbe vedere della serendipità in questo, ma non è ben chiaro se questa bilanci adeguatamente confusione e frustrazione.

Qualcuno potrebbe anche dire, a ragione “Ma Google usa la ricerca per keywords e i risultati sono buoni”. Si noti che Google ora si affida pesantemente a Wikipedia e ad altre opere di reference online per fornire i risultati più rilevanti. Wikipedia è un sistema per l’organizzazione delle informazioni, organizzato da persone, e spesso ha una risposta is a knowledge organization system, organized by people, and ha spesso una risposta predefinita per la ricerca che è più probabile che corrisponda all’ipotesi dell’utente. Una ricerca sul solo termine “darwin” restituisce:

In effetti, Google si è sempre affidato alle persone per organizzare il web, seguendo i collegamenti ipertestuali che costoro hanno creato. Sebbene il meccanismo iniziale della ricerca sia quello per keywords, Google è davvero bravo a maneggiare il risultato della pura ricerca per parole per restituire per prime le pagine potenzialmente più rilevanti.

♦

Il cambiamento dalle intestazioni, ai database alla ricerca per keyword ha completamente eliminato la visibilità e l’utilità delle intestazioni nel catalogo. La casella di ricerca singola è diventata la norma dei cataloghi di biblioteca e molti utenti non hanno mai avuto l’esperienza del catalogo come sistema organizzato di intestazioni. La visualizzazione predefinita è sintetica e mostra solo alcuni elementi essenziali, in particolare autore, titolo e data. Questo potrebbe signicare che ci sono utenti totalmente ignari del fatto che esiste un sistema di intestazioni nel catalogo.

L’attività recente sulla catalogazione, da ISBD a FRBR a RDA e BIBFRAME pone il focus sulle modificazioni del record bibliografico, ma non si occupa affatto del modello del catalogo in sé. Con questi sforzi, il sistema di organizzazione della conoscenza che il catalogo rappresentava è scivolato ancora più sullo sfondo. E ancora, non esiste ancora un impegno coordinato per rimediare.

La cosa più soprendente è che i catalogatori continuano a creare intestazioni, scrupolosamente, sinceramente, a dispetto del fatto che queste non vengano usate come dovrebbero nei gestionali di biblioteca, e non sono state usate in questo modo da quando vennero sviluppati i primi sistemi di gestione per le biblioteche, più di 30 anni fa. Le intestazioni sono mangime per la ricerca per parola, ma non più di qualsiasi altro insieme di tag. Le intestazioni non svolgono più la funzione di organizzazione (colocation) per la quale erano nate.

La serie di post dedicati al catalogo e al suo contesto comprende:

Taggato con: browsing, dbms, library catalogues, search