「Higuchi GM Corpus」の公開

http://www.flc.kyushu-u.ac.jp/~hgmc/

 

 

「Higuchi GM Corpus」の公開にあたって

言語文化研究院長 福元圭太

 

Thomas Mann: Gesammelte Werke in 13 Bänden (S. Fischer Verlag, 1974)、J. W. von Goethe: Goethes Werke in XIV Bänden (Hamburger Ausgabe) な ら び に J. W. von Goethe: Briefe (Weimarer Ausgabe, IV. Abteilung in 50 Bänden) に基づく「Higuchi GM Corpus」を、新たに大学院言語文化研究院のデータ管理のもと、全世界に公開できることは、本研究院にとって大きな喜びであり、また名誉なことであります。

このテキスト・データベースに収められたファイルは、本学名誉教授で、本研究院(当時は「言語文化部」)の部局長でもあられた樋口忠治先生が、独力で、しかもキーボードによる手入力という、まさに気の遠くなるような地道な作業によって完成されたものです。「トーマス・マン・ファイル」は 1983 年に一部が、1987 年に全体が公開されました。「ゲーテ・ファイル」は翌 1988 年に、

「ゲーテ書簡集・ファイル」は 1988 年から入力が開始され、1994 年に公開されています。公開にあたっては、当時の「九州大学大型計算機センター」の教員・スタッフに協力を仰いでおられます。

現在においては大型言語コーパスのみならず、さまざまなデータベースが、いろいろな分野の研究や調査に利用されていますが、「Higuchi GM Corpus」の特徴は、なによりもそのパイオニア的先見性にあります。入力の最初期にはまだ「パンチカード」が利用されていたとうかがいました。スキャンの技術開発がようやく緒に就いたのが 1980 年代の半ばです。樋口先生によるデータベースの公開がいかに先駆的なものであったかがここからもわかります。

樋口先生はデータベースの検索という方法により「従来の言語科学では全く手がつけられなかった研究分野が生まれた」、つまり言語科学に「数量化の道を拓いた」と書いておられます(「テキスト・データベース「トーマス・マン・ファイル」の完成と再編成について」1987 年)。「研究者の永年の経験と知識に頼っていたこの分野に、だれでも簡単に反復して同じ事実を追体験することができる手段をもたらした」(同上)、すなわち科学の基礎となる数値化と反復可能性をもたらしたのです。

言語科学の研究者のみならず、文学研究者がこのデータベースから受ける恩恵も計り知れません。トーマス・マンやゲーテがどこで、何回、どのような意味である語彙を使っているのか、ゲーテは誰にあてて何回手紙を書いているのか等々が瞬時に判明するのです。私の専門はトーマス・マン研究ですが、ドイツ語圏のマン研究者もこのデータベースのことを知っており、利用者もかなりの数に上っています。今後とも全世界に向け、このデータベースの存在と意義を言語文化研究院から発信していきたいと思います。

九州大学の旧教養部が福岡市の六本松にあったころ、樋口先生の研究室には朝から晩まで煌々と灯りがともっていました。時折、修道僧然とした先生がふらっとコーヒーを飲みに、なじみの喫茶店に赴かれる姿をみかけました。「あの喫茶店には大枚を投資した」とおっしゃっておられます。

このデータベースの「Higuchi GM Corpus」は「樋口・ゲーテ・マン・コーパス」を意味します。樋口先生の名を冠し、永くその業績を称えるものであります。

なお「Higuchi GM Corpus」の言文サーバへの移設と整備・再公開にあてっては、若くて有能な同僚である内田諭准教授と鈴木右文教授の全面的な支援を受けました。ここに深甚なる謝意を表します。

2016 年 7 月 12 日

 

リンク集 (Links)

■「トーマス・マンのテキスト・データ・ベースについて」『言語科学』18, pp. 11-14, 1983-03-00. 九州大学
http://catalog.lib.kyushu-u.ac.jp/ja/recordID/1341774?hit=16&caller=xc-search

■「トーマス・マン・ファイルについて」『計算機科学研究報告』4, pp. 37-39, 1987-03.  九州大学
http://catalog.lib.kyushu-u.ac.jp/ja/recordID/1362895?hit=10&caller=xc-search

■「テキスト・データベース「トーマス・マン・ファイル」の完成と再編成について」『九州大学大型計算機センター広報』20, (6), pp. 582-596, 1987-11-25. 九州大学大型計算機センター
http://catalog.lib.kyushu-u.ac.jp/ja/recordID/1468165?hit=1&caller=xc-search

■「テキスト・データベース「ゲーテ・ファイル」の公開」『九州大学大型計算機センター広報』21, (3/4), pp. 167-176, 1988-07-25. 九州大学大型計算機センター
http://catalog.lib.kyushu-u.ac.jp/ja/recordID/1468177?hit=18&caller=xc-search

■「ゲーテ・ファイルの完成について」『九州大学大型計算機センター広報』22, (1), pp. 1-5, 1989-01-25. 九州大学大型計算機センター
http://catalog.lib.kyushu-u.ac.jp/ja/recordID/1468192?hit=19&caller=xc-search

■「言語研究とテキスト・データベース」『学術情報センターニュース』22, pp. -30, 1992-12-28. 国立情報学研究所
http://catalog.lib.kyushu-u.ac.jp/ja/recordID/1355549?hit=12&caller=xc-search

■「テキストデータベース「ゲーテ・ファイル」書簡集の完成」『九州大学大型計算機センター広報』27, (4), pp. 364-367, 1994-09. 九州大学大型計算機センター
http://catalog.lib.kyushu-u.ac.jp/ja/recordID/1470255?hit=17&caller=xc-search

その他http://catalog.lib.kyushu-u.ac.jp/ja/から検索語「樋口忠治」で検索されたい。