大西佐七のザ・飛騨弁フォーラム 形態素分析

IPA品詞体系

戻る

私:学校文法(中等文法)は戦後のドタバタで岩淵悦太郎が作ったもの。超情報化社会にて情報工学の時代の現代はSNSなどのおびただしい自然言語情報、別名がビッグデータ、これをどう処理するのかという問題が現実の問題。選挙戦を制するとも言われている、まずは京大の JUMAN について触れたが、Mecab ChaSen など、各種の形態素解析プログラムが存在するらしいね。文章を頭から読んでいって、意味として最小の単位に至るまで細分する事に違いはない。形態素解析という。
君:簡単に説明してね。
私:Mecab ChaSen はIPA品詞体系ともいう。公開情報は以下の通り。
品詞ID 分類 説明
0 その他,間投 「あ」「ア」のみ 「そんなぁ」
1 フィラー(埋め込み) 「えーと」「なんか」など
2 感動詞 「うむ」「お疲れさま」「トホホ」
3 記号,アルファベット 「A-z」
4 記号,一般 「?」「!」「¥」
5 記号,括弧開 「(」「【」など
6 記号,括弧閉 「 )」「】」など
7 記号,句点 「。」「.」のみ
8 記号,空白 「 」のみ
9 記号,読点 「、」「,」のみ
10 形容詞,自立 「美しい」「楽しい」
11 形容詞,接尾 「ったらしい」「っぽい」
12 形容詞,非自立 「づらい」「がたい」「よい」 「見づらい」
13 助詞,格助詞,一般 「の」「から」「を」
14 助詞,格助詞,引用 「と」のみ
15 助詞,格助詞,連語 「について」「とかいう」
16 助詞,係助詞 「は」「こそ」「も」「や」
17 助詞,終助詞 「かしら」「ぞ」「っけ」「わい」
18 助詞,接続助詞 「て」「つつ」「および」「ので」
19 助詞,特殊 「かな」「けむ」「にゃ」
20 助詞,副詞化 「と」「に」のみ
21 助詞,副助詞 「くらい」「なんか」「ばっかり」
22 助詞,副助詞/並立助詞/終助詞 「か」のみ
23 助詞,並立助詞 「とか」「だの」「やら」
24 助詞,連体化 「の」のみ
25 助動詞 「ます」「らしい」「です」
26 接続詞 「だから」「しかし」
27 接頭詞,形容詞接続 「お」「まっ」 「お高い」「まっ赤」
28 接頭詞,数接続 「計」「毎分」 数値に接続するもの
29 接頭詞,動詞接続 「ぶっ」「引き」 動詞に接続するもの。「ぶったたく」
30 接頭詞,名詞接続 「最」「総」 名詞に接続するもの。「最高値」
31 動詞,自立 「投げる」
32 動詞,接尾 「しまう」「ちゃう」「願う」 「行ってしまう」
33 動詞,非自立 「しまう」「ちゃう」「願う」 「行ってしまう」「やっちゃったね」「ご遠慮願う」
34 副詞,一般 「あいかわらず」「多分」 必ず後ろで切れるもの,連体修飾が不可能なもの
35 副詞,助詞類接続 「こんなに」「そんなに」 「する」「だ」などが後続可能な副詞.
36 名詞,サ変接続 「インプット」「悪化」 後ろに「する」「できる」などがつくもの
37 名詞,ナイ形容詞語幹 「申し訳」「仕方」 助動詞「ない」の直前に現れる名詞
38 名詞,一般 「テーブル」 普通名詞。
39 名詞,引用文字列 「いわく」のみ
40 名詞,形容動詞語幹 「健康」「安易」「駄目」 形容動詞語幹で「な」の前に現れるもの
41 名詞,固有名詞,一般 一般的な固有名詞
42 名詞,固有名詞,人名,一般 一般的な人名。
43 名詞,固有名詞,人名,姓 一般的な日本人の性。
44 名詞,固有名詞,人名,名 一般的な日本人の名。
45 名詞,固有名詞,組織 「株式会社◯◯」 組織を表す。
46 名詞,固有名詞,地域,一般 「東京」 国以外の地名。
47 名詞,固有名詞,地域,国 「日本」 国名。
48 名詞,数 「0」「一」 数字及び「何(回)」など。
49 名詞,接続詞的 「◯対◯」「◯兼◯」 単語と単語を接続するもの。
50 名詞,接尾,サ変接続 「(可視)化」 後ろに「する」がつく接尾語。
51 名詞,接尾,一般 「感」「観」「性」 複合名詞をつくるもの。
52 名詞,接尾,形容動詞語幹 「的」「げ」「がち」
53 名詞,接尾,助数詞 「個」「つ」「本」「冊」

君:総括してね。
私:一言で言うと、方言の理解には何の役にも立ちません。一日で飽きてしまいました。
君:そんなぶっきらぼうな言い方はよくないわよ。
私:方言の特徴が最も表れるのが文末詞。途方もないアルゴリズムと膨大な辞書を作るとすれば、どこの地方の方言かがわかるようになるかもしれない。「なんばしよっと」と言えば博多方言で決まりだが、「なに/を/ば/し/をる/と」かな?品詞「と」こそ文末詞といってもいいが、これって元を正せば格助詞「と」の事でしょ。体言を受けて「なり」「あり」「す」あるいはそれ相当に動詞を下接し、転成の目標・動作の帰着店を示す格助詞だ。つまりは「「なに/を/ば/し/をる/こと/と/ある?」が原意じゃないのかな。方言の解釈は、このような人間ならではの思考プロセス stemming and lemmatization がないとね。
君:コンピュータさん、なんばしよっと。 ほほほ

ページ先頭に戻る