”せいてんはくじつ” より
”せい てん はく じつ” の方が俺には分かりやすいのである。
基本的には、漢字の音読みと訓読みをリストにして
- あい
- あいだ
- あう
- あお
- あおい
- あおぐ
- あか
- あかい
- あかす
- あかつき
- あからむ
- あからめる
- あかり
- あかるい
- あかるむ
- あがる
- あき
- あきなう
- 。。。。。。
読み方を最初の文字から比べて見るのです。そこで ”せい” と言うのを見つかると ”せい” のあとにスペース一個入れればいいのです。
ただ、2000文字中100文字ぐらいは例外があって、
たとえ、”意気阻喪” の読み方 ”いきそそう” はいろいろんはパターンがあるのです。
- ”いき” ”そ” ”そう”
- ”い” ”き” ”そ” ”そう”
- ”い” ”きそ” ”そう”
- ”い” ”きそ” ”そ” ”う”
- ”い” ”き” ”そ” ”そう”
なので、一覧の文字と合わせてみるのはかなり難しいのである。
Mecabとかいろいろ試してみたんだけど、なかなか思い通りには分かち書きできません。
やっぱり四字熟語専門じゃないとできないかもしれませんねぇ。
なので、今のところルールに当てはまらないものは特別として手で分かち書きしています。
こんな感じで、
- ようちゅうのこうこう よう ちゅう の こう こう
- くがみらくずめ く がみ らく ずめ
- そろうえん そ ろ う えん
- ほんけほんもと ほん け ほん もと
- ろうにゃくなんにょ ろう にゃく なん にょ
- れいていこく れい てい こ く
- こうせいかい こう せい か い
- はなもとじあん はな もと じ あん
- ひとりでんか ひとり でん か
- おうばんぶるまい おう ばん ぶる まい
- ひとみごくう ひと み ご くう
- つづらおり つづら おり
- きくじゅんじょう き く じゅん じょう
- じきしょうそう じ き しょう そう
- つくもがみ つくも がみ
- こはるびより こ はる び より
- つつうらうら つ つ うら うら
- ひきこもごも ひ き こも ごも
- くすりくそうばい くすり く そう ばい
- さこうべん さ こ う べん
- みつうんふう みつ うん ふ う
- 。。。。。
言語ってどれでも、なかなか面白いものがあるだねぇ。
No comments:
Post a Comment