Tutti i libri del mondo

[ Literary Gold, inserito originariamente da Doug Mo (Gone Vagabonding) ]

E così Google ha tentato l’ennesimo exploit: il conteggio di quanti libri siano stati pubblicati.

129,864,880[ref]Dato aggiornato al Thursday, August 05, 2010 at 8:26 AM[/ref].

Pensavo fossero di più. Oppure pensavo che fossero di meno… In realtà non lo so esattamente, anzi, non mi sono mai posto la domanda “ma quanti libri ci sono là fuori?”. Probabilmente perché, centinaia di migliaia in più, o in meno, per me le cose non sarebbero cambiate: sono un superficiale, lo ammetto!

Per Google, invece, la cosa ha una certa importanza, toccando da vicino la programmazione di Google books: dovendoli digitalizzare tutti (questo è il semplice ed efficace programma), è piuttosto importante conoscere la consistenza di questo patrimonio.

Così, qualche giorno fa, sono stati pubblicati i risultati dello studio, illustrato in un post sul google-blog ufficiale.Per prima cosa viene individuato l’oggetto del conteggio: oggetto in senso stretto, quello che viene digitalizzato ed è qui definito “tomo” (“an idealized bound volume”).

Non l’opera come creazione dell’ingegno (la work di FRBR) , ma piuttosto l’item come rappresentante di una singola manifestazione. Con una eccezione, che svuota un po’ di razionalità tutta l’operazione:

For example, we count hardcover and paperback books produced from the same text twice, but treat several pamphlets bound together by a library as a single book.

Una definizione che assomiglia da vicino a quella che si utilizza per l’assegnazione dell’ISBN, che viene assegnato a ogni nuova edizione di una stessa opera e che, guarda caso, è di riferimento sensato per progetti di digitalizzazione ad ampio raggio.

Interessante è il processo seguito per arrivare al numero complessivo di 129.864.880 libri pubblicati.

Gli ingegneri di Google sono partiti dai metadati raccolti dai vari provider (circa 150 diversi, tra i quali Worldcat, diversi cataloghi collettivi e fornitori commerciali): la cifra complessiva iniziale superava il miliardo di record. Attraverso alcuni algoritmi, che sarebbe interessantissimo conoscere, sono state eliminate le duplicazioni tra i diversi provider, arrivando a circa 600 milioni di record. A questo punto (algoritmi ancora più interessanti!) sono state ridotte le duplicazioni all’interno dei dati di ciascun singolo provider.

Tale algoritmo considera un peso diverso per i diversi metadati, a seconda di quali siano più importanti per distinguere libri diversi o, viceversa, associarne di uguali:

For example, when two records contain the same ISBN this is a very strong (but not absolute) signal that they describe the same book, but if they contain different ISBNs, then they definitely describe different books.

Il medesimo meccanismo entra in azione anche su software disponibili per le biblioteche italiane, come RABIS o un analogo prodotto sviluppato da CG Soluzioni informatiche.

Altri algoritmi hanno clusterizzato i libri sugli editori o su altri elementi di raffinamento, arrivando a circa 210 milioni di libri eliminando, infine, tutto il materiale non librario:

such as microforms (8 million), audio recordings (4.5 million), videos (2 million), maps (another 2 million), t-shirts with ISBNs (about one thousand), turkey probes (1, added to a library catalog as an April Fools joke), and other items for which we receive catalog entries.

A questo punto la cifra si aggirava intorno ai 146 milioni, dai quali è stato reputato opportuno sottrarre i periodici, che creavano troppi problemi di conteggio, ed ecco qui, i nostri 129.864.880 libri pubblicati.

Taggato con: books, google

Articoli correlati: