Iino Katsunori
Bukkyo University Library

Current status on Japanese resource contents in web-scale discovery services

A Web-Scale discovery service (WSD) is so useful for students and faculty to search for academic articles, journals and books. Therefore, it is becoming a de facto standard among academic libraries in many countries. One of the features of the WSD is to serve as a cloud service. This means that all users of all libraries that implement a WSD, will search the same so-called “Central Index”, and that the results of the WSD search with the same key words, will — theoretically — be the same among these different libraries. As such the WSD is a google-like service to search and discover library contents globally.

On the other hand, it is often pointed out that WSD's Japanese resource contents is much poorer than Chinese resource contents in terms of quantity. For example, when searching for a typical native Japanese word “枕草子” in “Summon” (one of the WSD used in many universities in Europe and US) the top search results may be occupied by Chinese resources.

However, the quantity is not that different (6.8 million Chinese and 6.9 million Japanese). Therefore, the reason why the top search results are virtually occupied by Chinese resources is considered to be caused by factors other than quantity.

In this lecture, I want to describe the current status on Japanese resource contents in web-scale discovery services and some efforts needed to solve the problem.

ウェブスケールディスカバリーサービスにおける日本語リソースをめぐる現状

ウェブスケールディスカバリーサービス(WSD)は、学生と教員にとって論文やジャーナル、図書を探す上で極めて便利なツールとして認識されている。それゆえ、多くの国の大学図書館では事実上の標準ツールとしての位置を固めつつある。WSDの特徴のひとつにクラウドサービスとして提供されることが挙げられるが、これは全ての図書館で単一のインデックス、すなわち「セントラルインデックス」を検索させることを意味している。それゆえ、同一の製品であれば、理論上、全てのWSDの導入館で同じ検索結果を得ることができることになる。すなわちWSDは、包括的に図書館コンテンツを検索し、発見するためのグーグルライクなサービスであると言える。

一方でWSDの日本語リソースのコンテンツは、中国語のコンテンツに比べて、量という点で貧弱なのではないかと指摘されることが多い。例えば欧米の大学で提供されているWSDのひとつ”Summon”において『枕草子』と検索を行っても、検索結果のほとんどが中国語のレコードで占められている場合があることが、こういった見方に拍車をかけている。

だが実際のところ、WSDに収録されている日本語と中国語のレコードの数は、それぞれ約6,780万件、約6,920万件と量的にそこまでの違いは見られない。それゆえ、このような検索結果となる原因は、単純に量の問題に帰するものではない。実際のところ、それは量以外のさまざまな要因が複合的に重なって生じたものである。

本講演では、ウェブスケールディスカバリーサービスの日本語リソースのコンテンツに関する現況と、その問題を解決するための、さまざまな取り組みについて述べたい。