スポンサーサイト
--年--月--日(--) --:--
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
別窓 | スポンサー広告 | ↑top
[AI開発ノート] 形態素解析 part2
2006年01月18日(水) 02:54
トップ >> AI開発ノート >> 形態素解析 part2
形態素解析 part2

前回辞書を使わずに形態素解析をしたいという記事を書きましたが、本屋でまさしく私の考えそのものの書籍を発見し思わず買ってしまいました。 『自然言語処理ことはじめ』という本です。今後、私のバイブルになりそうな予感です。

この書籍は、9章構成で「人間の言語および知識獲得能力の工学的実現」の研究について紹介しています。つまり、人間の言語能力のコンピュータによるモデル化を扱っている書籍です。
具体的には、形態素解析・かな漢字変換・構文解析・意味解析・機械翻訳・対話システムについて全て辞書なしの状態から学習によってこれらの能力を獲得する手法が各章で紹介されています。機械翻訳の章などはかなり面白かったです。ちなみに、ソースコードは一切掲載されていません。
本書で特徴的なのはこれらの手法にいずれも遺伝的アルゴリズム(GA)の応用や帰納的学習が使われていることです。これらは人工知能研究では非常に有名なものですが、特にGAを言語解析で積極的に使っている例は少ないように思います。第1章では、SHRDLUも紹介されていました。

さて、今回は第3章「コンピュータで文章から単語を取り出す方法」について紹介して、私の考えているプログラムの参考にしたいと思います。まず、筆者は人間の生得的能力を二つの事物が同じか異なるかを判断する能力と仮定し、この能力のみを使って形態素解析を試みています。すなわち、文章から共通部分と差異部分を抽出することにより単語を獲得するのです。例えば、次の本書41ページからの引用を見て下さい。
連続音声認識では連続音声(を)認識している.
(しかし)、(単音節)音声認識では(単音節)ごとに認識(する).
荒木健治「自然言語処理ことはじめ」41P,図3.2
( )で囲まれた部分はすでに学習した単語を抽出したものです。
ここから、まず複数回登場する部分(セグメント1)を抽出します。
セグメント1:連続音声、音声認識では、認識
次に、これらの共通部分(セグメント2)と差異部分(セグメント3)を抽出します。
セグメント2:音声、認識
セグメント3:連続、では
この過程は新しいセグメントが抽出できなくなるまで帰納的に繰り返します。
最終的には
セグメント1:連続音声、音声認識では、認識
セグメント2:音声、認識
セグメント3:連続、では
となります。これらは「セグメント2 > セグメント1 > セグメント3 」の順に単語である可能性が高いと考えられるので、文章から既知語を抽出する際にはこの順に優先的に切りだしを行います。以上が本書で紹介されている手法です。

前回、多くの形態素解析手法は左から順に切っていくと書きましたが、この方法はより確実性の高い単語を基点に分割を行うので島駆動型解析手法と呼びます。この方法は人間が単語を切る思考法に近いと考えられます。例えば、
サトシはピカチュウを捕まえた。
という文章はたとえピカチュウというのが何者か分からない人でも、確実性の高い「~は~を捕まえた」という部分を基点に切る事で「サトシ」と「ピカチュウ」を抽出できるわけですね。

また、セグメント1・2・3の間に優先順位を設定するという部分は一見ヒューリスティクス(経験則)を利用していて人間の生得的能力ではないような気もします。しかし、文章中の単語数を調べてみると
セグメント2:音声(3回)、認識(4回)
セグメント1:連続音声(2回)、音声認識では(2回)、認識(4回)
セグメント3:連続(2回)、では(2回)
となります。他の場合にもちょっと計算してみれば分かりますが、セグメント2・1・3の順に必ず個々の単語の出現頻度が高くなります。ここは単に「出現頻度が高い程、一つの単位として知覚されやすい」と考えれば生得的能力から大きく外れてはいないと考えられます。

以上が本書で紹介されている単語切りだし法です。私も複数回出現する部分を切り出すという事は考えていましたが、帰納的にセグメントを切り出す点・優先順位の設定をする点は非常に参考になりました。これにより、頻繁に出現する平仮名や句読点などのノイズを取り除くことができるのですね。
ただし、この方法は私がつくろうとしているものと若干異なっているのでちょっとアルゴリズムを変える必要があります。それについては、また次の記事で。次回あたりにプログラムを公開できる...でしょうか(汗)

この記事の内容がためになりましたらランキングへの投票をいただけるとうれしいです。→ランキングへ投票
・書籍
荒木健治『自然言語処理ことはじめー言葉を覚え会話のできるコンピュータ』森北出版

・参考リンク
遺伝的アルゴリズム(Wikipedia)
ヒューリスティクス
スポンサーサイト
別窓 | AI開発ノート | コメント:4 | トラックバック:0 | ↑top
<<[愛すべきAI/Robot達] 第4回 ATRON | AI開発ノート | [知性の探求] 第3回 無意識の知識>>
この記事へのコメント
金融商品の検索サイト。比較、会計基準、金融商品取引法、ランキング、種類など金融商品に関する各種情報をお届けしています。 http://westsearch.atmormortgage.com/
2008年12月09日(火) 09:31 | URL | #-[ 内容変更]

業務用厨房機器・調理器具を探すなら http://www.tabayuya.jp/215783/210238/
2008年10月06日(月) 12:12 | URL | #-[ 内容変更]

雑誌を探すなら http://www.tularebw.com/200162/101302/
2008年09月23日(火) 09:19 | URL | #-[ 内容変更]

アナウンサーは、視聴者にニュースや感動を伝える情報伝達者 http://laundry2.misterblackband.com/
2008年09月05日(金) 03:12 | URL | #-[ 内容変更]

↑top | under↓
コメントの投稿














管理者だけに閲覧

この記事のトラックバック
トラックバックURL

list FC2ブログユーザー専用トラックバックURLはこちら
↑top | under↓
| AI開発ノート |
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。