教科書だけでは得られない高性能な処理を実現するヒントが満載! 『テキスト処理の要素技術』発行

 インプレスグループで理工学分野の専門書出版事業を手掛ける株式会社近代科学社は、2021年3月10日に、『テキスト処理の要素技術』(著者:山本和英)を発行いたしました。
 



●書誌情報
【シリーズ名】実践・自然言語処理シリーズ 第3巻
【書名】テキスト処理の要素技術
【著者】山本和英
【編集委員】佐藤 理史・菊井 玄一郎・関根 聡・山本 和英・乾 健太郎・森 辰則
【仕様】B5変型判・並製・192頁
【本体価格】3,400円(税込3,740円)
【ISBN】978-4-7649-0629-7 C3304
【商品URL】https://www.kindaikagaku.co.jp/information/kd0629.htm



●内容紹介
 本書は実践・自然言語処理シリーズの第3巻です。
 自然言語処理におけるテキスト処理の様々な要素技術を、実用的な手法に厳選してまとめています。
 前処理、類似度、重要度、検索、要約、フィルタリング処理といった基礎的な処理方法が網羅され、自然言語処理の各種ツールの使い方も丁寧に解説されていることから、自然言語処理の研究・業務にこれから携わる方にとってもお手本になる内容です。
 教科書だけでは不十分な、実践に足る情報を本書から学ぶことができる貴重な一冊です。

●著者紹介
山本和英(やまもと かずひで)

1989年 長岡工業高等専門学校機械工学科卒業
1991年 豊橋技術科学大学知識情報工学課程卒業
1996年 豊橋技術科学大学大学院工学研究科博士後期課程システム情報工学専攻修了.博士(工学)
1996年 株式会社エイ・ティ・アール音声翻訳通信研究所客員研究員
2000年 株式会社エイ・ティ・アール音声言語通信研究所客員研究員
2001年 株式会社国際電気通信基礎技術研究所音声言語コミュニケーション研究所客員研究員
2002年 長岡技術科学大学電気電子情報工学専攻講師
2005年 長岡技術科学大学電気電子情報工学専攻助教授
2007年 長岡技術科学大学電気電子情報工学専攻准教授
2020年 言語商会代表

主要著書
『「日本語学」特集テーマ別ファイル(6)IT 関連』(共著 明治書院 2005 年)
『国会会議録を使った日本語研究』(共著 ひつじ書房 2008 年)
『挑戦こそが成功の鍵』(共著 近代科学社 2010 年)
『「やさしい日本語」は何を目指すか~多文化共生社会を実現するために~』(共著 ココ出版 2013 年)

●目次
第1章 基礎知識
1.1 集合の類似度
1.2 形態素解析器
1.3 日本語の品詞
1.4 コーパスと単語統計
1.5 n-gram
1.6 本章のまとめ

第2章 システム例:類似文書の提示システム
2.1 システム1:TF-IDFを用いたシステム
2.2 システム1の実行例
2.3 システム2:Doc2Vecを用いたシステム
2.4 システム2の出力例
2.5 本章のまとめ

第3章 前処理を行う
3.1 整形とクリーニング
3.2 単語分割
3.3 文字種の統一
3.4 表記ゆれ
3.5 前処理ツール
3.6 本章のまとめ

第4章 似た単語を探す
4.1 表記の類似度
4.2 編集距離
4.3 シソーラス
4.4 単語間の意味距離
4.5 コーパスを用いた単語の類似度計算
4.6 単語分散表現
4.7 本章のまとめ

第5章 単語の重要度を計算する
5.1 はじめに
5.2 TF-IDF値
5.3 TF-IDFを使う上での注意点
5.4 TF-IDFの改良
5.5 自然言語処理的な改良

第6章 似た文を探す
6.1 文中の単語の一致による文類似度
6.2 単語n-gramの一致
6.3 BLEU
6.4 ROUGE
6.5 構文的な一致
6.6 似たテキストを探し出すには?
6.7 本章のまとめ

第7章 テキストを短くする
7.1 自動要約の分類
7.2 重要文抽出
7.3 文と文の関係性を考慮
7.4 文圧縮
7.5 本章のまとめ

第8章 テキストを検索する
8.1 転置インデックス
8.2 不要語
8.3 クエリ拡張
8.4 単語分割の長さと検索結果の関係
8.5 単語n-gramによる検索
8.6 文字n-gramによる検索
8.7 検索逃れ
8.8 検索結果の順位付け
8.9 本章のまとめ

第9章 テキストをフィルタリングする
9.1 キーワードによるフィルタリング
9.2 ナイーブベイズ分類器
9.3 k近傍法
9.4 サポートベクトルマシン
9.5 本章のまとめ

第10章 システムを評価する
10.1 クローズドテストとオープンテスト
10.2 交差検証
10.3 適合率と再現率
10.4 どの評価尺度を用いるべきか
10.5 マイクロ平均とマクロ平均

第11章 より高度な処理を行う
11.1 構文解析
11.2 意味解析
11.3 本章のまとめ

第12章 さらに勉強したい方は
12.1 書籍を読む
12.2 論文を読む
12.3 学会に参加する
12.4 大学の研究室に入る
12.5 自然言語処理の勉強をしよう


【株式会社 近代科学社】 https://www.kindaikagaku.co.jp/
株式会社近代科学社(本社:東京都新宿区、代表取締役社長:井芹昌信)は、1959年創立。
数学・数理科学・情報科学・情報工学を基軸とする学術専門書や、理工学系の大学向け教科書等、理工学専門分野を広くカバーする出版事業を展開しています。自然科学の基礎的な知識に留まらず、その高度な活用が要求される現代のニーズに応えるべく、古典から最新の学際分野まで幅広く扱っています。また、主要学会・協会や著名研究機関と連携し、世界標準となる学問レベルを追求しています。

【インプレスグループ】https://www.impressholdings.com/
株式会社インプレスホールディングス(本社:東京都千代田区、代表取締役:松本大輔、証券コード:東証1部9479)を持株会社とするメディアグループ。「IT」「音楽」「デザイン」「山岳・自然」「モバイルサービス」「学術・理工学」「旅・鉄道」を主要テーマに専門性の高いメディア&サービスおよびソリューション事業を展開しています。さらに、コンテンツビジネスのプラットフォーム開発・運営も手がけています。

【お問い合わせ先】
株式会社近代科学社
TEL:03-3260-6161
電子メール: reader@kindaikagaku.co.jp

すべての画像


ビジネスカテゴリ
雑誌・本・出版物
ダウンロード
プレスリリース素材

このプレスリリース内で使われている画像ファイルがダウンロードできます

会社概要

URL
https://www.impressholdings.com
業種
情報通信
本社所在地
東京都千代田区神田神保町1-105 神保町三井ビルディング
電話番号
03-6837-5000
代表者名
松本 大輔
上場
東証スタンダード
資本金
53億4102万円
設立
1992年04月