大西佐七のザ・飛騨弁フォーラム 形態素分析
IPA品詞体系
私:学校文法(中等文法)は戦後のドタバタで岩淵悦太郎が作ったもの。超情報化社会にて情報工学の時代の現代はSNSなどのおびただしい自然言語情報、別名がビッグデータ、これをどう処理するのかという問題が現実の問題。選挙戦を制するとも言われている、まずは京大の JUMAN について触れたが、Mecab ChaSen など、各種の形態素解析プログラムが存在するらしいね。文章を頭から読んでいって、意味として最小の単位に至るまで細分する事に違いはない。形態素解析という。
君:簡単に説明してね。
私:Mecab ChaSen はIPA品詞体系ともいう。公開情報は以下の通り。
| 品詞ID |
分類 |
例 |
説明 |
| 0 |
その他,間投 |
「あ」「ア」のみ |
「そんなぁ」 |
| 1 |
フィラー(埋め込み) |
「えーと」「なんか」など |
|
| 2 |
感動詞 |
「うむ」「お疲れさま」「トホホ」 |
|
| 3 |
記号,アルファベット |
「A-z」 |
|
| 4 |
記号,一般 |
「?」「!」「¥」 |
|
| 5 |
記号,括弧開 |
「(」「【」など |
|
| 6 |
記号,括弧閉 |
「 )」「】」など |
|
| 7 |
記号,句点 |
「。」「.」のみ |
|
| 8 |
記号,空白 |
「 」のみ |
|
| 9 |
記号,読点 |
「、」「,」のみ |
|
| 10 |
形容詞,自立 |
「美しい」「楽しい」 |
|
| 11 |
形容詞,接尾 |
「ったらしい」「っぽい」 |
|
| 12 |
形容詞,非自立 |
「づらい」「がたい」「よい」 |
「見づらい」 |
| 13 |
助詞,格助詞,一般 |
「の」「から」「を」 |
|
| 14 |
助詞,格助詞,引用 |
「と」のみ |
|
| 15 |
助詞,格助詞,連語 |
「について」「とかいう」 |
|
| 16 |
助詞,係助詞 |
「は」「こそ」「も」「や」 |
|
| 17 |
助詞,終助詞 |
「かしら」「ぞ」「っけ」「わい」 |
|
| 18 |
助詞,接続助詞 |
「て」「つつ」「および」「ので」 |
|
| 19 |
助詞,特殊 |
「かな」「けむ」「にゃ」 |
|
| 20 |
助詞,副詞化 |
「と」「に」のみ |
|
| 21 |
助詞,副助詞 |
「くらい」「なんか」「ばっかり」 |
|
| 22 |
助詞,副助詞/並立助詞/終助詞 |
「か」のみ |
|
| 23 |
助詞,並立助詞 |
「とか」「だの」「やら」 |
|
| 24 |
助詞,連体化 |
「の」のみ |
|
| 25 |
助動詞 |
「ます」「らしい」「です」 |
|
| 26 |
接続詞 |
「だから」「しかし」 |
|
| 27 |
接頭詞,形容詞接続 |
「お」「まっ」 |
「お高い」「まっ赤」 |
| 28 |
接頭詞,数接続 |
「計」「毎分」 |
数値に接続するもの |
| 29 |
接頭詞,動詞接続 |
「ぶっ」「引き」 |
動詞に接続するもの。「ぶったたく」 |
| 30 |
接頭詞,名詞接続 |
「最」「総」 |
名詞に接続するもの。「最高値」 |
| 31 |
動詞,自立 |
「投げる」 |
|
| 32 |
動詞,接尾 |
「しまう」「ちゃう」「願う」 |
「行ってしまう」 |
| 33 |
動詞,非自立 |
「しまう」「ちゃう」「願う」 |
「行ってしまう」「やっちゃったね」「ご遠慮願う」 |
| 34 |
副詞,一般 |
「あいかわらず」「多分」 |
必ず後ろで切れるもの,連体修飾が不可能なもの |
| 35 |
副詞,助詞類接続 |
「こんなに」「そんなに」 |
「する」「だ」などが後続可能な副詞. |
| 36 |
名詞,サ変接続 |
「インプット」「悪化」 |
後ろに「する」「できる」などがつくもの |
| 37 |
名詞,ナイ形容詞語幹 |
「申し訳」「仕方」 |
助動詞「ない」の直前に現れる名詞 |
| 38 |
名詞,一般 |
「テーブル」 |
普通名詞。 |
| 39 |
名詞,引用文字列 |
「いわく」のみ |
|
| 40 |
名詞,形容動詞語幹 |
「健康」「安易」「駄目」 |
形容動詞語幹で「な」の前に現れるもの |
| 41 |
名詞,固有名詞,一般 |
|
一般的な固有名詞 |
| 42 |
名詞,固有名詞,人名,一般 |
|
一般的な人名。 |
| 43 |
名詞,固有名詞,人名,姓 |
|
一般的な日本人の性。 |
| 44 |
名詞,固有名詞,人名,名 |
|
一般的な日本人の名。 |
| 45 |
名詞,固有名詞,組織 |
「株式会社◯◯」 |
組織を表す。 |
| 46 |
名詞,固有名詞,地域,一般 |
「東京」 |
国以外の地名。 |
| 47 |
名詞,固有名詞,地域,国 |
「日本」 |
国名。 |
| 48 |
名詞,数 |
「0」「一」 |
数字及び「何(回)」など。 |
| 49 |
名詞,接続詞的 |
「◯対◯」「◯兼◯」 |
単語と単語を接続するもの。 |
| 50 |
名詞,接尾,サ変接続 |
「(可視)化」 |
後ろに「する」がつく接尾語。 |
| 51 |
名詞,接尾,一般 |
「感」「観」「性」 |
複合名詞をつくるもの。 |
| 52 |
名詞,接尾,形容動詞語幹 |
「的」「げ」「がち」 |
|
| 53 |
名詞,接尾,助数詞 |
「個」「つ」「本」「冊」 |
|
君:総括してね。
私:一言で言うと、方言の理解には何の役にも立ちません。一日で飽きてしまいました。
君:そんなぶっきらぼうな言い方はよくないわよ。
私:方言の特徴が最も表れるのが文末詞。途方もないアルゴリズムと膨大な辞書を作るとすれば、どこの地方の方言かがわかるようになるかもしれない。「なんばしよっと」と言えば博多方言で決まりだが、「なに/を/ば/し/をる/と」かな?品詞「と」こそ文末詞といってもいいが、これって元を正せば格助詞「と」の事でしょ。体言を受けて「なり」「あり」「す」あるいはそれ相当に動詞を下接し、転成の目標・動作の帰着店を示す格助詞だ。つまりは「「なに/を/ば/し/をる/こと/と/ある?」が原意じゃないのかな。方言の解釈は、このような人間ならではの思考プロセス stemming and lemmatization がないとね。
君:コンピュータさん、なんばしよっと。
ほほほ