フロンティア学院

パブリックドメインから世界をめざす

翻デジと熱田神宮略記について

翻デジという企画に参加して「熱田神宮略記」を翻刻しました。

lab.ndl.go.jp

 一区切り付いたので、色々思う事をまとめていきます。

翻デジとは?

翻デジ2014

国立国会図書館デジタルライブラリ(通称国デコ)を翻刻しようというプロジェクトです。

結論と本音

しかし、本音を言うと、

  • 2014ってなってるしどこまで本気のプロジェクトなんだろうか?
  • ガチの学術系っぽいのに自分のような一般人が土足で入って良い世界なんだろうか?

といったところが不安。

そこを敢えて踏み込んで行きます。母さん、ボクは大人になるよ。

 

翻デジの抱える問題

資料追加が申請式

俺はこれを翻刻するぜ!うおお!!ぐらい気合いを入れないと、なかなか申請しづらい雰囲気があります。

それに、他の人が申請したものに勝手に触れても良いの?という遠慮もしてしまう。

むしろ、初めから全資料を登録しておき、たまたま目に入った資料の1ページを翻刻するようなスタイルにした方が、各ページにタグ付けするといった意味でも取っつきやすいように思います。

あるいは自動追加の仕組みを目指して準備中なのではとも思うのですが、何なら権限を頂ければ私の方で不適切な本とかをガンガン追加したり、いかがわしい申請をモリモリ受け付けるようにしたいのでお任せ頂きたく存じます。

(本当は真面目にやるので前向きに検討下さい)

 

「保護」しなければ統合できない

これは説明にもあるとおり検討中とのことですが、より多くの人が校正に関われるようにと考える場合、保護によって完成を示す必要は無いと思います。

 「統合」も、wikiにページが追加されるのかな?と思っていたのですが、そうでもないので、リアルタイムにその時点の入力内容が反映される、で良いのではないでしょうか。

 

統合後の扱い

統合後のテキストが、あくまで国デコの画像に対するタグ程度の扱いなので、微妙な印象を受けました。

ただ、これは趣旨を考えればそういうものと割り切ってしまって良さそうです。

むしろ、青空形式やTEIなどの体裁にこだわらず、文字起こしだけに特化してしまって、あとはお好きにでいいのではと思いました。

個人的にはこれを元に体裁を整えてepubにしたりして遊びたいと思います。

 

近デジ側の問題

同一書籍が多数ある

再版とか、新装版とかで同じ本がいっぱいあるのです。

資料としては比較を楽しめるのだが、翻刻としては単に二度手間になってしまうと悲しい。

書誌データが公開されてるので、それをチェックしておけば済む話ではあります。

 

熱田神宮略記も似たようなのがある。

国立国会図書館デジタルコレクション - 熱田神宮略記並本仏の主義

これは被ってない後半部分にむしろ興味がある。

 

裁定、許諾の扱いが難しい

自分が調べた限りの理解で簡単に言うと、次のようであるらしい。

特に「裁定」の扱いが難しく、仮に著者が生まれた瞬間に書を発し、かつ120歳まで生きながらえたとして、それでも1895(明治28)年以前に発行する事は出来ない。ところが、明治17年刊みたいなのが裁定扱いだったりする。

国立国会図書館デジタルコレクション - 印度種天蚕飼養手引草

死後50年を踏まえて 1845年(文政8年)以前に発行する事はできない。最古の裁定扱いは1872年だろうか。

国立国会図書館デジタルコレクション - 西洋画引節用集

もっとも、明治6年のものなどは満了扱いに変更されていたので、現実的な執筆年齢や没年齢を踏まえて、日々メンテに苦心されているものと思います。*1

また「裁定」であっても、明らかに満了のものもあり、たとえば菊池寛(1948年没)でも裁定扱いのものがある。

国立国会図書館デジタルコレクション - 青い鳥

これは「絵」が裁定の理由では?と考えられており、ならば絵を引用しない翻刻事業に於いては満了として扱っても差し支えないものと思える。

 

このように扱いが難しく、なかなか気軽に手を出しづらい。

翻デジは国立国会図書館とは直接は関係しないにしても、近い位置にあると思うので、このあたり、たとえば許諾が翻デジにも適用されるとかだと嬉しいなーとか思います。

 

「翻デジ」への入力について

そもそも「熱田神宮略記」を選んだ理由は、青空文庫では絶対入らないラインナップであることと、図表があり文字起こしがめんどくさそう=今後の運用に役立ててもらえそう、というものです。

資料的な価値については後で書きます。

入力にあたり、次のような点で躓きました。

 

表の入力(21ページ)

青空形式では定義が無く、TEI形式はブラウザ上で確認ができないため、wiki形式で記載した。

先述の通り、そもそもそこまで考えずに、単語を羅列するだけでよかったかもしれない。

 

アスキーアート的な表現(30ページ)

神輿行列の配置図がアスキーアート的に書かれている。スペースや表組みを用いて、意図を保った表記としたが、検索の助けになるとも思えないので、いっそ原典参照とした方が潔い気はする。

 

段落の途中に改ページがあった場合(31ページ)

青空形式だと改行せざるを得ないし、TEIではpタグが開きっぱなしになってしまう。

統合後のファイルであればpタグがつながるのだが、そのpタグの中に原資料を示すdivが入るため、マークアップとしては微妙さがある。とりあえず無視しました。

 

外字の変換

事業の目的である検索性と、個人的な読みやすさを考慮し、包摂適用は青空形式に従い、包摂外の漢字については注記表記はせずそのままとしました。

包摂適用は、原書に忠実にしようとしたところ「示兄」とかがスマホで表示できなかったので、青空様に従いました。

 

その他入力について

作業は別のエディタ(というかGoogleDocs)で入力してからコピペという手順で進めました。

GoogleDocsはOCRが標準装備なので便利と思いきや、大半打ち直す羽目になったりしたので、あまりアテにはなりません。

自動保存+同時編集あたりが魅力です。

でも、もし最初に書いたような「ちょっと読んで、読んだぶんだけ書く」という仕組みになれば、翻デジのエディタも「読むためのツール」として便利になってくると思う。

 

熱田神宮略記」を読む

折角翻刻したので、本書についても触れておきましょう。

熱田神宮の由来や土地、持ち物について書かれており、神社系、または地誌系の話で時々資料として出てくる(らしい)。

上記に書いた図表が多いという理由の他、自分が名古屋出身だからというのもあり興味を持って読みましたが、内容の大半は熱田神宮のサイトに書いてあるし、そうでなくてもwikipediaなどで書かれている。

しかし、そういった情報のソースの一つであることと、出版された昭和17年と現在の差異を見られる点で資料価値は充分にあると思います。

 

東久邇宮稔彦熱田神宮

特に面白かったのは、参拝者に東久邇宮稔彦王の名が多数見える事で、時期的には丁度彼が留学して遊び回って帰国してから真面目に仕事し始める間(wikipediaの記載より推測)の時期と思うが、そういう奔放な方だったので公務を与えて自覚を持たせたのか、実際はこれだけではよく分からないが、そういう面での記録はあまり目にしないので、一読に値するものと思います。熱田でこれなら、伊勢とか出雲とかはどうなの?とか気になっているので、そのへんにも手を出しかねない勢いです。

 

そもそも何

いきなりパブリックドメインテキスト増えろだとか訳の分からん事を言い出したのは何故かというと、一つは青空文庫に関する事で、これは後日に取っておきますが、もう一つは国デコの大量の資料について、PCで読む気が起きないというのが理由です。

ビュアーが改善され、DLページ数も増えてかなり使いやすくなったのは確かですが、PCで文字を読むのはどうもダルイ。こんなブログの文字を読ませておいてなんですがダルイ。これはもう個人の嗜好の問題だと思います。画像データなのでkindleにもあんまり入らないし、トリミングとかも結構面倒。

 

そこで個人的に編み出した解決策は、翻刻することで「手で読む」ということ。色々本末転倒な気もするし、理由はよく分かりませんが、とにかく結果的にしっくりきました。

画像データは「手で読ん」で、テキストデータはkindleで読む、というのが今一番読みやすい方法な訳です。

とはいえ翻刻作業は大変疲れるので、テキストデータの方がもっと増えて頂いた方が嬉しい、ということで、こういう活動を応援しているわけです。

 

ついでにパブリックドメインなら、本を読んだ自慢したついでに、その本を皆に読んでもらう、という事もできるので、読んだ後の楽しみもあり、何より国デコの公開資料は宝の山なので、その宝を少しでも世に広められると思うだけでワクワクしてきますよね。

 

そんな感じで色々やってますし、これからもやっていきます。

超真面目な気持ちで書いたので今回はオチはありません。

次回は大好きな青空文庫の話を予定しています。

*1:※12/13 計算を思いっきり間違えていたので訂正