データプロファイリング

データプロファイリング

 

概要

データプロファイリングはビュー内のデータを分析することで、ビューの効率性を最適化するために利用可能なアクションを特定します。

こちらの機能を使用するためには、データプロファイリング設定を有効化しなくてはいけません。「管理」>「管理コンソール」>「データソース」>「接続」>「パラメーター」に移動し、データプロファイリング項目を有効化します。

 

分析の実行

ビューの分析は、モデルステップの後にのみ実行することができます。データプロファイリング分析を実行する前に、作業中のビューがすでにモデル化されていることを確認してください。

データのプロファイリングを行う場合、高度なオプションを無視して標準的なプロファイルを実行することも、必要に応じて高度なオプショ ンを設定することもできます。

オプション

説明

プロファイリング対象の行数

プロファイリング対象の行数を指定します。行数が多いほど関連性の高い結果が得られますが、分析に時間がかかります。

プロファイリング対象のカラム (列)

ビュー内のすべてのカラム (列) に対してプロファイリングを行うか、一覧から単一のカラム (列) を選択するかを指定します。

分析タイプ

選択したフィールドで実行するデータ分析を選択し、テストをして含める候補を選択します。

何も選択をしない場合は、標準的なデータプロファイリングを実行します。

 

以下の手順では、準備ステップで編集中のビューを対象に実行します。

  1. 対象のビューの準備ステップ画面を開いていることを確認します。



  2. 画面上部のツールバーからデータプロファイリング

    をクリックし、データプロファイリングダイアログボックスを表示します。



  3. 高度↓をクリックして、オプションの一覧を展開します。



  4. 上記の表を参照にして、ニーズに合わせてオプションの設定を変更します。

  5. プロファイリング開始をクリックして、分析を開始します。
    分析が完了すると、各フィールドの配下にヒストグラムが表示されます。

 

ヒストグラムから得られる情報の詳細については、以下の項目をご確認ください。

 

ヒストグラムのグラフタイプ

ヒストグラムは、分析された各フィールドの上部に表示され、データ内の異なる値の頻度を分析した結果を示します。

グループ化データ、またはテキスト

数値、日付、または時間

 


 

統計

説明

サンプルサイズ

フィールド内のレコード数を表示します。

重複しない値

フィールド内の重複しない値の数を表示します。

空の値

フィールド内の空の値の数を表示します。

数値フィールド

中央値

中央値を表示します。

平均値

平均値を表示します。

標準偏差

一連の値の分散の尺度を表示します。

最小値

最小値を表示します。

最大値

最大値を表示します。

日付/時間フィールド

最小値

最も早い日付を表示します。

最大値

最も古い日付を表示します。

 


使用

項目

説明

レポート

選択したフィールドを使用しているレポートの一覧を表示します。

最終変更

各レポートの最終変更日を表示します。

使用

各レポートの使用率を表示します。


推奨

プロファイリングを実行するフィールドのタイプに応じて、Yellowfinは、分析の結果に基づき適用できる機能について推奨します。

 

 

推奨

説明

参照コードの確認

フィールド内の値を分析し、既存の参照コードと比較することで、参照コードの適用、更新、作成を推奨します。

Nullの確認

フィールド内の値を分析し、null値の置き換え、もしくはフィルター適用による排除を推奨します。

数字の一意性

フィールド内の値を分析し、フィールドのグループ化を推奨します。

日付の一意性

フィールド内の値を分析し、フィールドを日付階層として使用することを推奨します。

ジオグラフィーの確認

フィールド内の値を分析し、フィールドのジオパックとのリンクを推奨します。

日付階層

フィールド内の値を分析し、フィールドのドリルダウン日付階層とのリンクを推奨します。