ラブレターズ

その335(2007.03.24)第32回ディジタル図書館ワークショップ(その5)

少し間が開いてしまったが、このシリーズ最終回を書こうと思う。
テーマはその2で予告したとおり、電子化の方法論としてPDFでのメタデータ埋め込みや自動組版での情報の埋め込みの可能性について。

電子化の方法論としてのPDFでのメタデータ埋め込みについては、今現在大規模に電子化を進めている各団体で、既に色々試みられているだろう。それはPDFに限らず、TIFFやJPEGなどでも行われていると思われる。
その方法については、The Web KANZAKI内の「写真/画像とメタデータ:ExifからRDFへ」や、アンテナハウスサイト内の「XMP™ (Extensible Metadata Platform)仕様についてのメモ」を見ると勉強になる。

The Web KANZAKIでは、PDFに限らず画像データに何らかのメタデータを埋め込む方法と、その応用例が書かれている。
その中で特に目を引いたのが、「RSSを使った、さまざまなメタデータの連動」という部分だ。複数の人物が映った写真にマウスを乗せると名前が表示される例や、RSSなどとの連動により検索可能な画像になるという実に魅力的な内容だ。

アンテナハウスの方では、さまざまな画像ファイルに埋め込むことができるXMPというメタデータの仕様について、特にPDFへの埋め込みについて書かれている。ここだけでは少しとっつきづらいが、同じアンテナハウスサイトのPDF 千夜一夜というブログの中で、「PDFのメタデータ(1)~(4)」という一連の記事を読むとわかりやすい。
それによると、XMPのツールキットについては誰でもソースコートを改良してアプリケーションに組み込んで再頒布できるらしい。ということは、どこかで学術雑誌用のツールを開発して公開していても不思議ではないのだが、果たしてどうだろうか。

学術雑誌は、和文抄録、英文抄録、和文キーワード、欧文キーワード、和文著者名、欧文著者名、参考文献、それと本文などの情報で出来ている。その他、各学術分野によっていろいろ付加されるが、これらの部分は(たまに英文抄録がないとか、参考文献がないとか、そういうことはあるが)大体において共通している。つまり、とても構造化しやすい分野なのだ。

さて、既に紙になっている雑誌の電子化についてはこれらの方法がとられるわけだが、これから作られる雑誌については何もスキャンしなくたって、データを作る段階から考える方が自然だろう。
自動組版の際に上記の各項目に当てはめたスタイルとXMLタグをリンクさせれば事は簡単だ。InDesignのように標準でXMLデータとスタイルをリンクさせる機能がある組版ソフトを使えば、原稿データを予めXMLでタグ付けして読み込み、修正後書き出せばそのままメタデータになる。本文画像はPDFへ書き出せばよい。

ただ、学術雑誌の場合、問題もある。本文が少なく図版や数式の方が多いことがしばしばなのだ。これらの配置にはどうしても人手による試行錯誤が必要だ。
その点については、従来から多く使われているのはTeXで著者自ら入力する方法がとられていた。が、DTP化の流れの中で、新世代の著者や印刷業者の方でとっつきにくくなり、今ではWordを使用する方法が増えてきたのではないだろうか。中にはXHTMLで図版から数式まですべてのデータをレイアウトして作ってもらう試みをしている会社もある。
一方では図版の多い学術雑誌でなく、抄録誌に焦点を当ててほぼ完全自動化をウリにしている会社もある。これは戦略上なかなかうまいなぁと思う(^^)

さて私はというと、Word派だ。文字データについてはWordのスタイル情報をInDesignに読み込み、InDesign上でスタイルを編集する。Wordに貼り込まれた画像や数式についてはそれを可能な限り綺麗に変換する方法をとる。当然図や数式が多いとかなり手間がかかるわけだが、それは仕方ない。でも、抄録や参考文献など、構造に目をつけてスタイル付けされていれば、本文については結構楽になる。

私が主に使っているDTPソフトは、上記のInDesignとEDICOLORだが、EDICOLORについては8までバージョンアップしてきたが、InDesignについては2.02で止まっていた。InDesignのXML機能は今までも試験問題解説集のように同じ内容を毎年順繰りに体裁を変えていくようなものに使ってきたが、その後随分力を入れて使いやすくなっているらしい。効率化の面での投資は惜しんではいけないな(もちろん無理のない範囲で)と思い、この際大変遅ればせながらバージョンアップすることにした。

一方、EDICOLORのXML機能でいいところは、タグテキストがXMLで作れるというところだ。最初に雛形を画面上で組み、それをXML形式でタグ書き出しし、流し込むべきXMLデータをXSLTなどを使ってタグテキストにすることで、文字体裁から何から全部指定されたタグテキストを一気に読み込むことができる。この機能を使ってページ数の大変多い名簿などを作ってきた。

が、問題もある。第一は重さの問題。それとタグテキストの難解さだ。
XSLTを作ってでもという仕事は、定期的に来ることが決まっているものに限られる。その労力が馬鹿にならないからだ。ページごとに数パターンのレイアウトが切り替わるようなものではその労力はさらに膨らむ。
が、これについては、手前味噌だが「HTML差込ツール EXCEL2HTML Pro」を活用することで解決できることに気づいた。
つまり、数種類のデザインパターンの雛形を作り、可変項目のタグを入れておく。そしてそれをタグ書き出しし、ツールのテンプレートにすればいいのだ。
ツールによって、データは各頁ごとに一気に書き出されるが、それを必要な分だけ必要な順番にXSLTなどを使って一気につなげれば大幅に楽ができる。このつなげるためのXSLTは簡単だ。

と、ここまで威勢の良さそうなことを書いてきたが、これがなかなか仕事と結びつかないのよねぇ(^^; なんだか私の得意分野は需要が難しくて(^^; しかも「帯に短したすきに長し」という部分もおおいにあり(^^; だものだから、昨年から今年はぐらんぐらん揺れてしまった。
でも、つい最近ドンピシャな仕事が入った。ラブレターズやユーミンカタログ、皆様のお部屋などで普段からXMLやXSLT、ASP.netを触っていたのが幸いしたのだけど、これでこの方向でやっていく自信が少しついた。これからはこの方向を伸ばしていくべく、このワークショップで出てきたjunii2の仕様書を読んだり、NIIメタデータ・データベース入力マニュアル2.0版など、積極的に目を通していこうと思っている。


その334(2007.03.19)第32回ディジタル図書館ワークショップ(その4)

神崎氏の特別講演の後は、神崎氏を交えて国立国会図書館東京国立博物館国文学研究資料館の代表をパネリストに迎えて、「メタデータの相互運用は本当に可能か」というテーマでパネルディスカッションが行われた。

コーディネーターを務められた方が実に歯切れ良く、面白かった。最前列に座られた方と最後列に座られた方は身内の方らしく(でも明らかに目上の方)、この方々の発言が多かったのだが、前の人とか後ろの人とか呼んで名前で呼ばない。その他にも共同で研究されているというパネリストの方にも少し失礼と思われる発言もあるのだが、その歯切れのよい進行で、まったく嫌な感じはしない。
要所要所で、
「つまり、とにかく早く公開しろ、ということですね」とか、
「もっと宣伝しろ、ということですね」とか、
短い言葉で発言者の言わんとすることをまとめる。

話がどんどんメタデータの公開へ進んで行くと今度は
「なんだかイケイケドンドンの雰囲気になっておりますが、」
と「前の人」や「後ろの人」に話を振る。

おかげで終始笑いの絶えないディスカッションになった。

その中で神崎氏は控えめながら「そもそも相互運用する必要があるのだろうか」という、パネリストの方たちにとっては今までの努力がガラガラガッシャンになりそうなことをつぶやいておられた。特にAmazonのウェブサービスや、はてなdel.icio.usのようなソーシャルブックマークを何度も引き合いに出しながら何かを訴えていた様子だったのだが、どうもそのときの楽しい雰囲気に流されてか、そのときにはその言わんとされていることを理解することができなかった(Amazonを例にして「あるテーマの本をリスティングするのに、今はAmazonを使うしかないというのは危機的な状況だ」「とにかく勝手にIDを付けて公開した方が勝ちという空気がある」というのはよく理解できたが)。

が、帰宅後はてなのキーワードの機能を見てみると、これがまさに「セマンティック・ウェブ」の試みでもあるのよねぇ。つまり、「はてな」ではキーワードの意味を定義するメタデータが存在していると思われること。そのメタデータは、はてなダイアリー市民になると編集したり新たなキーワードを作成したりできる権利が与えられる。

神崎氏のお話はJAGATを含めてこれまで3回聞いている。つまりセマンティック・ウェブとRDFについてはそのつど聞いているわけなのだが、今の今までほとんど理解できていなかった。
そのような中、注文していた「セマンティック・ウェブのためのRDF/OWL入門」が18日に届いたのだが、このワークショップでのテーマの相互運用やメタデータの定義の問題など、今回の講演で話されていたテーマが最初の数頁でいきなり目に入ってきた。つまり、各図書館が連携しようとしている、そのためにうってつけの方法が、RDFなどで定義されている語彙を利用したメタデータの構築および公開なのだ(って、まだ読み始めなのでえらそうなことは言えない(^^;)。

講演での話は、内部でどのようにデータを管理していようとも、外部との連携用には共通項としてのRDFに変換する方法が有利ということであり、さらに私の理解では各機関でRDFなどを用いたメタデータを公開すれば、それらは多くの人たちによって利用され、その過程で元のデータの不備などが発見され、それがフィードバックされることにより、データベースはどんどん洗練されてれいく。

実際AmazonのWebサービスでも、当初、ユーザーが入力したカスタマーレビューにUTF-8で表現できない文字が含まれると、XSLTで表示する前にそこで読み込みが止まってしまい、XMLデータそのものが途中まで表示され、後は文字化けするという不具合があった。それらをWebサービスのユーザーは自分のところで発見するごとに1つずつ報告していった。その経過はその218の2004-12-15、2004-12-21のところを読んでいただけるとわかると思う。もちろんAmazonでも探したり、そのような文字が入力された場合の対処をしたのだろう。今ではそのような問題は解決されている。

あと、AIRwayについては、機関リポジトリという各大学独自のデータベースを他の大学でも相互に使えるようにするということで、認証が伴うからリンクリゾルバが必要ということなのかもしれない(でも、つきつめて考えていくとやっぱりメタデータの公開が一番と思われ…)。私などのような一般ピーポーにも利用できるサービスにはGeNiiという学術コンテンツ・ポータルが開設されている(それでもやはりメタデータを公開して欲しいことには変わりはないけど(^^;)。

それから、図書館からのメタデータの公開についてだが、私としてはぜひ国立国会図書館でメタデータを公開して欲しい。私のところでもささやかながら、詳細Book検索「比較検討」というページを作っているが、やはりAmazonのWebサービスをベースにしているため、そのときにAmazonで扱っていない本は他のWeb書店で在庫を持っていても表示すらできない(って、今のところ2個所しか表示してませんが(^^; 今後増やす予定です)。ここはやはり一企業ではなく、国立国会図書館のようなところでメタデータを公開していただけると、さらにいろいろなサービスが開発されることが容易に想像でき、Amazonで発見できなかった希少な本の発見にもつながり、そういう本が売れるという効果も期待できる。特に学術雑誌などユーザーが絞られていく一方の媒体が、興味を持つ一般人の目に触れる機会も増えるだろうことは容易に想像がつく。

そう思っていたところ、国会図書館側でも乗り気というBlog記事があったと思ったのだけど、今見たら見つからないわ(^^;


その333(2007.03.16)第32回ディジタル図書館ワークショップ(その3)

3番目の発表は、筑波大学図書館情報専門学群の庄山和男氏、筑波大学図書館情報メディア研究科の永森光晴氏、同じく筑波大学図書館情報メディア研究科の杉本重雄氏による、「メタデータスキーマの再利用を指向したスキーマ設計支援システム」。既存のメタデータスキーマであるDublin Coreのアプリケーションプロファイルの概念を基礎として、応用目的にあった新しいスキーマを作るプロセスを支援するシステムを、この研究によって開発したという内容だ。

このシステムは、目的のスキーマに再利用可能な記述項目(エレメント)を既存スキーマの中で検索し、見つけたエレメントを基礎として新規メタデータスキーマの定義作業を支援する機能を持つ。
利用目的に沿ったエレメントを発見する方法として、キーワード入力のたびごとにリアルタイムに候補を表示させるインクリメンタルサーチによる動的な検索を可能とし、さらに、意味的な要素も含めて検索できるように検索の結果表示された候補からエレメントのカテゴリおよびスキーマのカテゴリ(利用目的を端的に示した語彙)による絞込みを行うことができる。
そうして選択したエレメントに何回出現可能等の制約条件やメタデータスキーマの利用目的など、必要な項目を対話的に入力することでメタデータスキーマの作成を半自動的に行うそうだ。

今回参加された各図書館や博物館のように、収蔵する内容が多岐にわたる機関の場合、やはりどうしても独自にスキーマを開発せざるを得ないことが多い。そういうときにこういうシステムがあれば便利だろう。

そしていよいよ神崎氏による特別講演「RDFとメタデータの相互運用」。氏の著書である「セマンティック・ウェブのためのRDF/OWL入門」は、先ほどの発表の参考文献として登場する。この講演で使用されたスライドはこちらにアップされている。

先ほどの発表はスキーマ作成ツールの研究だったが、こちらはその際にどのようなスキーマを作るか、そして各機関それぞれで作られたスキーマの間でデータを共有したり交換したりする際にはどういう方法があり、またどういうところを注意したらいいかというのが主な内容だった。

具体的な内容はアップされているスライドをご覧いただくとして、私がアリャッと思ったのは、「RDFの構文はXMLとは限らない」という記述だ。
改めて調べてみたら、私が思っていたRDFというのは、XML/RDFだったのね。その230で大嘘の図を描いてしまったので、直しておかねば。ラブレターズのRSS(激重注意)(小さいサイズのものはこちら(RSS1.0を採用しているので、dc:dateなどのエレメントがあります(^^)))を作るときにはThe Web KANZAKIを大いに参考にさせていただいたのだが、必要なところだけつまんで、読めるときには改めて読んでおかないとこういうことになるのね。なので、早速「セマンティック・ウェブのためのRDF/OWL入門」を注文した。


その332(2007.03.14)第32回ディジタル図書館ワークショップ(その2)

まず、午前の部の論文発表。「ディジタル図書館 No.32」の目次では、筑波大学図書館情報メディア研究科の庄山和男氏、永森光晴氏、杉本重雄氏による「メタデータスキーマの再利用を指向したスキーマ設計支援システム」だったが、話の流れの都合か、国立教育政策研究所 教育情報センターの江草由佳氏による「教育図書館における複数コレクションの提供」の発表で始まった。この図書館では、和洋教育関係の図書、雑誌のほか、教科書・大学紀要・地方教育資料・戦後教育資料などを所蔵している。話を聞いていてこれはぜひそのコレクションを見たいと思う魅力的な内容だ。が、どうもこの図書館ではかなり独自の方式で書誌項目を決め、他の図書館との連携は現時点で考えていないようだった。ということで、発表の後、会場からの質疑応答で、そのあたりを聞かれていたが、検討するという答えが返ってきた。

次が、筑波大学附属図書館情報サービス科 嶋田 晋氏、筑波大学大学院図書館情報メディア研究科の宇陀則彦氏、北海道大学附属図書館の杉田茂樹氏、千葉大学附属図書館の鈴木宏子氏、名古屋大学情報連携基盤センターの山本哲也氏、九州大学附属図書館の片岡 真氏、北海道江別市の鈴木敬二氏による「AIRwayプロジェクト:機関リポジトリ活用のためのリンキングサービスの構築」。
AIRwayプロジェクトというのは、リンクリゾルバを通じて機関リポジトリに登録されたオープンアクセス文献への誘導を実現することを目的とし研究開発プロジェクトだ。上記の各大学と国立情報学研究所が協力して進めている。
リンクリゾルバというのは、各種データベースの検索結果や参考文献情報から、自機関で利用可能な一次情報や関連情報への統合的な誘導を支援するツールで、一般に「中間窓」と呼ばれる画面を表示して一時情報や所蔵検索、文献複写依頼、各種検索エンジンーのリンクを提示し、利用者の求める情報へ誘導するのだそうだ。
事前にこれを読んだ神崎氏はなぜこのリンクリゾルバの必要なのか腑に落ちないと言って、盛んに首をひねっておられたが、確かにはてなdel.icio.usのようなソーシャルブックマークがあるのだから、そういうしくみ利用する方がそんな高価なソフトを導入するよりもずっといいだろうと私も思う。どういう仕組みなのか、「はてな」ではブックマークを登録すると自動的にキーワードも取得してくれるし。思い出の壁紙の各ページなどのように、たまにtcさんのハンドルがなぜかコロンビア大学教育大学院(Teachers College)やツアーコンダクターを意味するキーワードとして抽出されるというほほえましいものがあるが(^^)、それでもかなりいい線でキーワードが抽出され、それをもとに他の記事へのリンクをたどれるようになっている。
それよりも何よりも、Webサービスなどでメタデータ自体を提供してくれれば、世の中の頭のいい人々が色々なサービスを開発してくれるだろう。

AIRwayプロジェクトは、基本的には学術雑誌を対象としている。その実現のためには各論文の引用文献のこれとこれは同じものであるという「同定」が必要だが、機械的にできるものは別として、書誌の入力過程や原本のミス、情報のヌケなどさまざまな理由で自動的に同定できないものは手動でということになる。つまり手動で同定しなければならないデータには何らかの誤謬が含まれている可能性が高いともいえる。
発表後の質疑応答でも、引用文献の「同定」が難しすぎるという意見が出されていたが、そういうものについてもメタデータ自体が流通すれば多くの人々が問題を見つけて報告してくれるだろう。

たとえばAmazonなどでも各商品のページの下の方にカタログ情報にミスがあったらお知らせくださいというリンクがあったり、Webサービスの方でも問題があったら投稿できるページがある。これらはカタログデータが広く一般に公開されているからこそできることだ。

論文の最後の方にリンクリゾルバ以外への活用という項目があり、それを読むと、幸いAIRwayサーバはヒットした文献の所在情報の「XMLデータ」を返してくれるという仕組みになっているそうだ。そこで、そこからの可能性について、検索エンジン、連想検索エンジンなどとの連携も考えられると触れられている。
これについてはパネルディスカッションのときにとにかくメタデータの公開を急いで欲しいという意見が出て、それに対して「果たしてそれを公開してみんなが利用してくれるだろうか」というコーディネーターのつぶやきがあったが、それに対しては埼玉大学でカフカの研究をされている方が即座に「私だったらメチャクチャ利用する」と発言された。これには私も大いにうなずき、拍手した。このコメントに、コーディネーターの方は、今までこういう会を開いても提供側ばかりが集まってユーザーの意見を聞くことができなかったと感想を漏らされた。埼玉大学の方は研究者として情報の提供者というスタンスなのだが、図書館側からすれば利用者だろう。私のような「一般ピーポー」でも、谷崎について何でも調べたいと思う。なので、埼玉大学の方の発言には大いにうなずき、拍手した。こういうところこそ発言するべきところだったが、やはり引っ込み思案。大きくうなずき拍手するくらいが精一杯だった。

この後、その3であと2つの発表について、その4で午後のパネルディスカッションについて、その5では電子化の方法論としてPDFでのメタデータ埋め込みや自動組版での情報の埋め込みの可能性について書きたいと思う。


その331(2007.03.14)第32回ディジタル図書館ワークショップ(その1)

3月9日、筑波大学東京キャンパス(秋葉原)で第32回ディジタルワークショップに行ってきた。mixiで開催の情報を得て、場違いを承知で申し込んだ。

午前中は筑波大学を初め各国立大学図書館や国立教育政策研究所の代表の方が研究発表、午後はゼノン・リミテッド・パートナーズの神崎正英氏の講演「RDFとメタデータの相互運用」、続いて神崎氏を交えて国立国会図書館東京国立博物館国文学研究資料館の代表をパネリストに迎えて、「メタデータの相互運用は本当に可能か」というテーマでパネルディスカッションが行われた。

定員70名の会場には、各発表者やパネリストの組織の方が多く見られ、やはり内輪な雰囲気。1人で参加した私はやはり場違いかと小さくなっていた。
その中で、ゲストの神崎氏が講演のときに勉強のためにもと参加する気になったというお話をされたときは少しホッとした。神崎氏はJAGATのセミナーでお顔を拝見したことがあるので勝手に顔見知りの気分になっていた(というより、その場で知っている人が神崎氏くらいと思われたためすがるような気持ち(^^;)が、私は知っていてもご挨拶もしたことないのにあちらが覚えているわけはないわよね、やっぱり(^^;

さて、内容だが、この記事を書くために改めて当日配られた「ディジタル図書館 No.32(No.32はまだアップされていないので、当日の内容はこちらをご覧ください。)」を読み直したら、猛烈な後悔が…(^^; やはり各サイトで予習しておくべきだった。そうすればリアルタイムの頭のめぐりももう少しよかったかもしれないし、意見ももしかしたら言えたかもしれない(って、引っ込み思案の私だから、やはり無理だったかもしれないけど(^^;)。

そこで、遅ればせながらこの場で当日の進行と私なりの理解、それからちょっとした提案をこの1ページ5記事で書いてみようと思う。