大西佐七のザ・飛騨弁フォーラム 古代の飛騨方言

オックスフォード・NINJAL 上代語コーパス (ONCOJ)

戻る

私:まずはサイトの紹介。The Oxford-NINJAL Corpus of Old Japanese (ONCOJ)
君:うーん、英語にアレルギーの人には向かないサイトね。
私:自然科学の世界では英語が主流なので、この際は文系の方々も是非どうぞ。
君:茶化さないで、(現代)日本語で、然も簡単に一言で要約してね。
私:うん。ところで『日本書紀』、『古事記』、『万葉集』、『風土記』の四つの文献に共通して見られる古代日本語の語彙(重なり語彙)は約140語とされている。現代語に通じる日本語のコアと言われる語彙だ。但し、これっぽっちじゃあかんという事で、凡そ9万語の歌謡のテキスト、99,828個の語彙的内容の形態素、単語または複合語の形で 15,635 個の束縛形態素のコーパスをオックスフォード大学が作った。国研の全面協力という事だろうが、英語ならオックスフォード大だぞ、という事で日本人の編者はいない。
君:それでも上記の約140語の基礎語彙と比較すると桁違いに多い数ね。要は手あたり次第に何でもかんでも詰め込んだのね。
私:その結果、見直して間違いが多数みつかるというジレンマもあるようだ。見直し作業も並行しているらしい。例えば、表意語と表音表記の問題については彼らも深刻に受け止めていて、品詞同定と活用同定が処理済み、表意・表音の解析も完了、これらに加えて文法の句構造や構成素の文法役割の情報も解析済みと豪語していらっしゃる。
君:外国人の方々が古代日本語の解析に執念を燃やしていらっしゃるって凄いわね。
私:そうだね。ただし万葉仮名に代表される漢字の世界をローマ字表記するのは本当に「あぢきなし」。イソポを読んだほうが楽しいよ。天草本『伊曽保物語』は1593(文禄2年)に天草で刊行されたもので、「イソポのハブラス」とも呼ばれる。当時の口語体をポルトガル語式のローマ字で表記しており、日本の口語史や発音を知る上で貴重な資料。ONCOJはおそらく国研の『日本語歴史コーパス』の上代語の部門、つまりは奈良時代文献の部分を英語(逐語)訳したものと考える。パクリでしょ。
君:そんな事は書いちゃ駄目よ。
私:まあね。僕自身、当サイトの存在を知ったのは昨日なので全部に目を通してはいない。従って評価のようなものは控えたい。今日のはあくまでも紹介の小記事だ。それでも大英帝国の文化の深さを見せつけられた感じだね。それに僕のような自然科学野郎は長年の英語のほうが前頭葉に響くけれどな。いずれ当サイトも全て英文で書くとするか。
君:おやめなさいな。ただでさえ少ない読者様がお逃げになるだけよ。 ほほほ

ページ先頭に戻る