dotDataとは

NECのデータ分析ツール「dotData」は、目的を設定し分析を開始してから結果が出るまで、数カ月もの期間がかかる従来のデータサイエンスプロセスを自動化し、たった数日でデータ分析の結果にたどり着くことができるデータ分析ソフトウェアです。

分析工数の8割を占めるデータ前処理「特徴量設計」を自動化

従来のデータサイエンスプロセスでは、目的を設定し分析を開始してから結果が出るまで、数カ月もの期間がかかっていました。特に難しいとされる「特徴量設計」を含むデータの前処理だけで、分析工数の実に8割を占めるとも言われています。

dotDataは、このプロセスを自動化するため、たった数日でデータ分析の結果にたどり着くことができ、ビジネス課題への適用・戦略策定がよりスピーディーに行えるようになります。

dotDataが実現する特徴量設計

従来、複数の表に散らばったデータを手動で加工し、特徴量を作成。膨大な試行錯誤を繰り返す必要があり、分析に時間がかかっていました。dotDataは複数の表を自動で整理・集約、特徴量を自動探索し、生成関数を自動で生成。特徴量設計工程の大半を自動化することができます。

特徴量設計とは

特徴量設計とは、データベースから予測に役立つ変数(特徴量)の表(サンプル×特徴)を作成する作業です。分析工数の8割を占めると言われるデータ前処理のうち、特に難易度が高く、専門家による試行錯誤が必要な作業になります。特徴量は属性や事象など、目的につながる特徴を抽出して導き出します。

例えば、野球観戦でのフライドポテトの売上予測を行う際、「野球場でビールを買う男性」「気温が28℃以下で天候は曇り」「6カ月以内に結婚した郊外在住の30代女性」など、抽出したデータが特徴量になります。

特徴量設計は、専門家による試行錯誤が不可欠

概念は理解しても実際に特徴量設計を行うには、専門的な知識とスキルが必要です。一般的な特徴量設計は次のフローになります。

  1. 特徴量から仮説作成

    可能性のある特徴量から仮説を立案。特徴量は無限にあるため、専門家による経験と勘に依存する。

  2. 特徴量生成クエリの実装

    数百から数千の特徴量を手作業で実装。バグの混入による手戻りやシステム化によるテスト工数が大きくなる。

  3. 特徴量の生成

    工事台帳、仕入れ帳、工事別出面集計表

  4. モデル設計(機械学習)

    膨大な量のデータを機械に学習させ、そのデータ内の傾向を取得。

  5. 評価

    試算表、総勘定元帳、請求書

dotDataは特徴量設計工程の大半を自動化

線形回帰、決定木など、複数のアルゴリズムを利用し、数多くの予測モデルを自動で設計。データに最適な組み合わせで高精度な予測モデルを作成します。dotDataは結果の根拠を示し、最適なアルゴリズムを推奨してくれます。予測結果だけでなく結果の根拠が示されることにより、その理由を理解でき、判断や計画における意思決定につなげることができます。

大塚商会では、dotDataをお手軽でリーズナブルに活用いただけます

大塚商会が保有するdotData実行環境を利用し、お客様に最先端AIの活用機会をお手軽、リーズナブルにご提供します。分析、予測の作業は大塚商会のデータサイエンティストが実施、お客様はAIツールの導入コストを負担することなくデータをご用意いただくだけで、AI分析結果を得ることが可能です。

dotData(AI分析サービス)