大西佐七のザ・飛騨弁フォーラム 形態素分析
形態素分析とは
私:当サイトで繰り返し述べてきた事だが、学校文法(中等文法)は戦後のドタバタで岩淵悦太郎先生が急遽、橋本文法を手直しして一夜城でお作りになったもの。日本国民は等しく学んでいる。今日は、昭和は遠くなりにけり、というお話。
君:それが表題の熟語、形態素分析というわけね。
私:いかにも。自然言語は情報そのもの、戦後のコンピュータの目覚ましい発展によって情報工学という学問が花咲いた。SNSなどのおびただしい自然言語情報、別名がビッグデータ、これをどう処理するのかという問題。
君:時代の流行語として生成AIとか、今年も日常語になじみつつあるわね。形態素分析とは?
私:文章を頭から読んでいって、意味として最小の単位に至るまで細分する。そのひとつひとつを形態素という。これは中等文法の品詞の概念にほぼ一致するが、全ての自然言語が中等文法が定義する品詞で説明可能とは限らない。つまり形態素は全ての自然言語を説明できる品詞の概念であり、中等文法の品詞の概念を内包する。
君:具体的には?
私:幾つかのコンピュータ言語があるが、京都大学の JUMAN などが老舗。形態素解析システム JUMAN++ version 1.0
君:簡単に説明してね。
私:以下のような品詞体系。
| Type |
Subtype |
Examples |
Description |
| 形容詞 |
- |
「よい」、「青い」、「静かだ」 |
いわゆる形容動詞も含む。 |
| 連体詞 |
- |
「あるまじき」、「おかしな」、「いかなる」 |
後に体言がこれるもの。 |
| 副詞 |
- |
「かなり」、「いちおう」 |
|
| 判定詞 |
- |
「だ」のみ |
「です」「である」「でした」等に活用する。 |
| 助動詞 |
- |
「です」、「らしい」、「のだ」 |
|
| 接続詞 |
- |
「しかし」、「あるいは」、「いっぽう」 |
|
| 指示詞 |
名詞形態指示詞 |
「これ」、「そこ」、「あちら」 |
ようするに代名詞。 |
| 連体詞形態指示詞 |
「この」、「こういう」、「ああいった」 |
ようするに連体詞。 |
| 副詞形態指示詞 |
「こんなに」、「あんなふうに」、「ああして」 |
|
| 感動詞 |
- |
「おはよう」、「まあ」 |
|
| 名詞 |
普通名詞 |
「つくね焼」、「鞭打ち症」、「パイ中間子」 |
サ変名詞以外のもの。 |
| 副詞的名詞 |
「ところ」、「ため」、「ぐらい」 |
「~したところ」「~するため」 |
| 形式名詞 |
「の」、「こと」、「もの」、「つもり」、「わけ」 |
|
| 固有名詞 |
「エスキモー」、「広辞苑」、「平成」 |
以下の 3カテゴリにあてはまらない固有名詞。 |
| 組織名 |
「NATO」、「そごう」、「運輸省」 |
|
| 地名 |
「東京」 |
|
| 人名 |
「田中」 |
|
| サ変名詞 |
「説明」、「あんよ」、「埋め合わせ」、「発想」 |
「~する」の形をとれるもの。 |
| 数詞 |
「ゼロ」、「億」 |
数値。 |
| 時相名詞 |
「あした」、「ほどんど」、「それぞれ」 |
|
| 動詞 |
- |
「変える」、「変わる」、「すり代わる」 |
|
| 助詞 |
格助詞 |
「が」、「を」、「から」、「に」 |
|
| 副助詞 |
「は」、「のみ」、「まで」、「なんか」 |
|
| 接続助詞 |
「と」、「かも」、「あるいは」、「し」 |
|
| 終助詞 |
「さ」、「なあ」、「かしら」、「っけ」 |
|
| 接頭辞 |
名詞接頭辞 |
「御」、「元」、「再」 |
あとに名詞がこれるもの。 |
| 動詞接頭辞 |
「うち」、「相」 |
あとに動詞がこれるもの。 |
| イ形容詞接頭辞 |
「まっ」、「超」 |
「まっ赤」 |
| ナ形容詞接頭辞 |
「無」、「不」、「非」、「最」 |
「無目的」「不定形」 |
| 接尾辞 |
名詞性名詞接尾辞 |
「さん」、「前」、「ごろ」、「製」、「化」 |
名詞につくもの。 |
| 名詞性述語接尾辞 |
「目」、「放題」 |
「少な目」「歌い放題」 |
| 名詞性名詞助数辞 |
「個」、「か所」、「枚」、「%」、「メートル」 |
おもに単位。 |
| 名詞性特殊接尾辞 |
「以来」、「限り」、「強」、「半」 |
副詞化するもの。「きょう限り」「10時半」 |
| 形容詞性述語接尾辞 |
「ない」、「にくい」、「やすい」 |
|
| 形容詞性名詞接尾辞 |
「っぽい」、「的だ」 |
|
| 動詞性接尾辞 |
「れる」、「させる」、「かかる」、「なさる」、「ます」 |
おもに受け身・使役をあらわすもの。 |
| 特殊 |
句点 |
「。」、「.」のみ |
|
| 読点 |
「、」、「,」のみ |
|
| 括弧始 |
「(」、「【」 |
|
| 括弧終 |
「”」、「>」 |
|
| 記号 |
「!」、「?」、「・」、「+」、「A」 |
|
| 空白 |
「 」のみ |
|
| 未定義語 |
カタカナ |
「オマエモナー」 |
|
| アルファベット |
「QWERTY」 |
|
| その他 |
「@」 |
|
君:具体例がいいわよ。
私:土田吉左衛門「飛騨のことば」に「かまわんな(句)」、意味は「構うな」、「な」は禁止の意味をしめす助詞との記載がある。これを品詞分解してみよう。
君:JUMAN++ version 1.0 が答えを教えてくれるのね。
私:そうだ、と言いたいところだが、話は簡単ではない。飛騨方言「かまわんな」は「かまわぬない」の音韻変化である事に気づかないと形態素分析はできないのでは。佐七なりの答えは以下の通りです。
descr. かまわ ん な
Sashichi かまわ ぬ ない
particle 動詞 助動詞 接尾辞
形容詞性述語接尾辞
proto かまう ぬ ない
subclass 子音動詞ワ行 助動詞ぬ型 イ形容詞アウオ段
conjug. 未然形 基本形 基本形
君:ほほほ、確かに、「な」は形容詞性述語接尾辞であるというところがミソのような感じとは言うものの、明らかに変ね。
私:えっ・・なるほど、そうだな。つまり、「ぬ」で否定の意味は良いとして、「な」を形容詞性述語接尾辞と解釈してしまうと「命令・懇願」の意味が欠落してしまう。つまり文意の解釈として失格。
君:そうよ。つまり、春なわすれそ。
私:そうか。古典文法な忘れそ、という事か。つまり「な」は禁止の意味の副詞だな。「かまわんな」は、「かまうな」というべきところを、たまたま言い間違えただけの、所謂、方言学でいうところの「過剰修正」だったのか。
君:そうよ。原意は副詞、これが今日の答え。
私:本日の結論としては、コンピュータ解析のご宣託を鵜吞みにしてはいけない。
君:飛騨方言では「鵜呑みにせんな」というのよね。これも「過剰修正」の典型例ね。
ほほほ