データ分析や機械学習に欠かせない「前処理」の共通化を目指したオープンソースが国内で発足

データサイエンティストの業務の9割と言われる前処理をコミュニティベースで共通化と改善を目的とする。

アイザック株式会社

2017年8月31日 08時53分

オープンデータのフォーマット共通化を目指したプロジェクト http://dataset.jp とそれらのプラクティスを元にデータの前処理のフレームワーク化を目的としたプロジェクト datakit の2つが発足された

前処理

■データの前処理
人工知能、ビッグデータの現場において、綺麗に加工されモデリングや分析のアルゴリズムを施せるデータがすぐに手に入る事はほぼあり得ない。

まずは有益なデータソースを探すところから始まり、そのデータを理解しデータフォーマット(配列, データフレーム..)に加工し分析可能なデータの型に変換（例えば男、女という文字列を整数型に変換など)する必要がある。

またそれに加えて外れ値や欠損値、連続値の離散化などのデータの正規化を行わなければ正しい分析をする事は出来ない。

現状、モデリングや分析それ自体に対するフレームワークはオープンソースを含め存在するが、この事前処理を共通のプラクティスとしてフレームワーク化する動きは必ずしも活発とは言えない。

■オープンデータの前処理
政府系の期間を中心にデータをオープンにする動きは盛り上がりを見せているが、それぞれの組織が様々なデータフォーマットや文字コード、データの切り方で公開をしている。

オープンデータの前処理に関していえば、それぞれの技術者が車輪を再発明する必要はない。データの取り扱いに関する規約の範疇でデータとその処理方法について共有する事が出来れば本質的な分析や評価により多くの時間がかけられる。

そのような想いからSan Fransiscoと東京をベースとするaisaac inc.は

オープデータに関する前処理の共有化とコミュニティによる改善を目的とした

detaset.jp - [http://dataset.jp]

を発足させた。

■データの前処理に関するオープンソースベースのフレームワーク

プライベートなデータとなると一般的にその乱雑さはオープンデータよりも大きくなる傾向にあり、
組織や個人のデータ活用、分析の大きな障害となっている。

一方でモデリングや分析に関するライブラリやパッケージは発達しており、多くの技術者はそれに依存することとなる。つまり前処理で行うべきフォーマットはある程度共通化させる余地はある。

またフォーマットの共通化によってデータを無害化させる事が容易になれば、企業間でのデータの売買や共有がより活発になり、データ活用がより広がると考える。

その試金石をdataset.jpの活動から得られたプラクティスをフレームワーク化させる

datakit - [https://github.com/aisaac-lab/datakit]

を公開させた。

どちらもαバージョンで、コミュニティの立ち上げ途上である。

発起人はプログラミング言語Rubyのコミッターでプログラミング言語Hilbertの作者でもあり、コミュニティによるソフトウェアの発展に大きな情熱を持っている。

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザーログイン

メディアユーザー新規登録無料

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

種類: その他
ビジネスカテゴリ: 政治・官公庁・地方自治体ネットワーク・ネットワーク機器
キーワード: 人工知能データ分析ビックデータデータサイエンス機械学習ディープラーニング前処理
関連リンク: http://dataset.jp/

データ分析や機械学習に欠かせない「前処理」の共通化を目指したオープンソースが国内で発足

データサイエンティストの業務の9割と言われる前処理をコミュニティベースで共通化と改善を目的とする。

会社概要