実践・自然言語処理シリーズ 第2弾!! MeCab開発者、工藤拓氏による『形態素解析の理論と実装』発行
インプレスグループで理工学分野の専門書出版事業を手掛ける株式会社近代科学社は、2018年10月4日に、『形態素解析の理論と実装』(著者:工藤 拓)を発行いたしました。
●書誌情報
【シリーズ名】実践・自然言語処理シリーズ
【書名】形態素解析の理論と実装
【著者名】工藤 拓
【編集委員】佐藤 理史・菊井 玄一郎・関根 聡・
山本 和英・乾 健太郎・森 辰則
【仕様】B5変型判・並製・モノクロ・本文204頁
【本体価格】3,500円(税込3,780円)
【ISBN】978-4-7649-0577-1 C3304
【商品URL】https://www.kindaikagaku.co.jp/information/kd0577.htm
●内容紹介
本書は、言語において意味をなす最小の要素「形態素」の解析方法を解説した専門書です。
この分野の技術者が、形態素の理論や実装方法について網羅的、体系的に学ぶのに適した内容になっています。
本書の特徴は、一般的な形態素解析の教科書や論文等ではまず扱われることがない、「実装」や「高速化」などのテーマを扱っている点です。とはいえ、辞書やコーパスなどの言語資源の構築・利用といった、形態素解析では外せないテーマもきちんと解説しています。
形態素解析そのものは四半世紀の歴史を持ち、近年の計算機の高速化、AIブームなども手伝って、多くの有用な解析ツールが作られてきています。日頃、そうした解析ツールを「ブラックボックス」として使っている人も、本書を読めば、その中身を理解したうえで拡張・改良できる道筋ができるでしょう。そして、独自の辞書の作成を目指せるはずです。
C++11を使った具体的な実装方法も掲載しており、まさに実践書として使える一冊です。
●著者紹介
工藤 拓 (くどう たく)
1999年 京都大学工学部電気電子工学科卒業
2004年 奈良先端科学技術大学院大学情報科学研究科 博士後期課程修了 (工学博士)
2004年 NTTコミュニケーション科学基礎研究所リサーチアソシエイト
2005年 Google 合同会社 ソフトウェアエンジニア
●目次
第1章 形態素解析の概要
1.1 形態素解析
1.2 実践MeCab: インストールと実行
1.3 主な形態素解析・単語分割システム
1.3.1 JUMAN
1.3.2 ChaSen
1.3.3 MeCab
1.3.4 KyTea
1.3.5 Sudachi
1.3.6 ウェブサービスとしての形態素解析
1.3.7 ブラウザ上で動く単語分割
1.3.8 SentencePiece
1.4 まとめ
第2章 言語資源
2.1 辞書
2.1.1 自然言語処理システムにおける辞書
2.1.2 辞書を使うか使わないか
2.1.3 品詞
2.1.4 可能性に基づく品詞体系
2.1.5 活用
2.1.6 動的活用展開と静的活用展開
2.1.7 超短単位
2.2 コーパス
2.2.1 生コーパス
2.2.2 注釈付きコーパス
2.3 形態素解析のための辞書
2.3.1 JUMAN 辞書
2.3.2 ipadic
2.3.3 NAIST-jdic
2.3.4 UniDic
2.3.5 NEologd
2.4 形態素解析のための注釈付きコーパス
2.4.1 京都大学テキストコーパス・KNB/KWDLC コーパス
2.4.2 RWC コーパス
2.4.3 現代日本語書き言葉均衡コーパス (BCCWJ)
2.4.4 日本語話し言葉コーパス (CSJ)
2.5 辞書の選び方
2.5.1 最適な辞書は応用ごとに変わる
2.5.2 単語長
2.5.3 何の曖昧性を解消しようとしているのか?
2.6 まとめ
第3章 テキスト処理の基礎
3.1 文字コード
3.2 Unicode とUTF-8
3.3 UCS 正規化とCSI
3.4 UTF-8 によるUCS 正規化
3.5 文字種の判定
3.6 文字の正規化
3.7 波ダッシュ,全角チルダ問題
3.8 まとめ
第4章 辞書引きアルゴリズム
4.1 辞書引きの難しさ
4.2 擬似トライ
4.3 共通接頭辞検索とトライ
4.4 ダブル配列
4.4.1 ダブル配列による共通接頭辞検索
4.4.2 ダブル配列の圧縮
4.4.3 ダブル配列の構築
4.4.4 Darts‐clone を用いた辞書引きの具体例
4.5 メモリマップトファイル
4.6 辞書のみを用いた単語分割法: 最長一致法
4.7 まとめ
第5章 最小コスト法
5.1 ラティス
5.2 生起コストと連接コスト
5.3 ビタビアルゴリズム
5.4 最小コスト法の例: MeCab
5.5 コスト推定法
5.5.1 人手によるコスト設定.
5.5.2 隠れマルコフモデル
5.5.3 拡張隠れマルコフモデル
5.5.4 構造学習
5.5.5 構造学習の例: MeCab
5.5.6 パーセプトロンによる学習.
5.5.7 目的関数と最適化
5.5.8 構造化サポートベクトルマシン
5.5.9 条件付き確率場
5.5.10 パーセプトロンと条件付き確率場の関係
5.5.11 事前計算による高速化
5.5.12 正則化
5.6 選択的トライグラム
5.7 連語登録
5.8 高速化のための工夫
5.8.1 ゼロコピー
5.8.2 メモリプールによるノードの管理
5.8.3 連接表の実装
5.9 まとめ
第6章 点予測
6.1 点予測による単語分割
6.2 点予測による品詞推定
6.3 点予測の特徴
6.3.1 実装の容易さと頑健性
6.3.2 不完全な入力からの解析
6.3.3 言語資源の有効活用
6.3.4 単語長による影響
6.3.5 辞書の役割
6.3.6 分割の一貫性
6.4 構造学習による点予測の学習
6.5 まとめ
第7章 未知語処理
7.1 未知語.
7.2 解析時未知語処理
7.2.1 最小コスト法における解析時未知語処理
7.2.2 解析時未知語処理の例: MeCab
7.2.3 既知語から派生した未知語の自動認識
7.2.4 点予測における解析時未知語処理
7.2.5 未知語処理の学習
7.3 辞書拡充
7.4 新語のコスト推定
7.5 まとめ
第8章 評価
8.1 分割正解率
8.2 精度・再現率・F 値
8.3 品詞出力の評価
8.4 分割の一貫性
8.5 回帰評価
8.6 mecab‐system‐eval を用いた評価
8.7 まとめ
第9章 高度な解析
9.1 n‐best 解析
9.1.1 n‐best 解析の例: MeCab
9.1.2 最小コスト法におけるn‐best 解析
9.1.3 点予測法におけるn‐best 解析
9.2 ソフト分かち書き
9.2.1 ソフト分かち書きの例: MeCab
9.2.2 最小コスト法におけるソフト分かち書き
9.2.3 点予測法におけるソフト分かち書き
9.3 制約付き解析
9.3.1 制約付き解析の例: MeCab
9.3.2 最小コスト法における制約付き解析
9.3.3 点予測法における制約付き解析
9.4 部分注釈付きコーパスからの学習.
9.4.1 最小コスト法における部分注釈からの学習
9.4.2 点予測法における部分注釈からの学習
9.5 まとめ
付録
A.1 条件付き確率場の勾配の導出方法
A.2 logsumexp
コラム
コラム: 語 = 形態素
コラム: NKFC を文字列置換で実装できるか?
コラム: 言語非依存システム
コラム: オンライン学習とバッチ学習
コラム: 最大エントロピー法
コラム: 一貫性の重要性
【株式会社 近代科学社】 https://www.kindaikagaku.co.jp/
株式会社近代科学社(本社:東京都新宿区、代表取締役社長:井芹昌信)は、1959年創立。
数学・数理科学・情報科学・情報工学を基軸とする学術専門書や、理工学系の大学向け教科書等、理工学専門分野を広くカバーする出版事業を展開しています。自然科学の基礎的な知識に留まらず、その高度な活用が要求される現代のニーズに応えるべく、古典から最新の学際分野まで幅広く扱っています。また、主要学会・協会や著名研究機関と連携し、世界標準となる学問レベルを追求しています。
【インプレスグループ】 https://www.impressholdings.com/
株式会社インプレスホールディングス(本社:東京都千代田区、代表取締役:唐島夏生、証券コード:東証1部9479)を持株会社とするメディアグループ。「IT」「音楽」「デザイン」「山岳・自然」「旅・鉄道」「学術・理工学」を主要テーマに専門性の高いメデイア&サービスおよびソリューション事業を展開しています。さらに、コンテンツビジネスのプラットフォーム開発・運営も手がけています。
【お問い合わせ先】
株式会社近代科学社 出版局
TEL:03-3260-6161
電子メール:reader@kindaikagaku.co.jp
すべての画像