...
現在サポートするモデルのタイプは、以下の通りです。
- ディープラーニング
- 分散ランダムフォレスト
...
- 勾配ブースティングマシン
サポートしているPMMLファイルのバージョン
PMML Transfomation Step(変換ステップ)は、バージョン3.0以降のPMMLファイルを完全にサポートします。しかし、それ以前のバージョンでも機能するものもあります。また、PMMLの標準ではPMMLファイルに複数のモデルを含めることができても、PMML Step(ステップ)はPMMLファイル内のひとつのモデルしか認識することができません。ファイル内に複数のモデルがある場合、Yellowfinは最初のモデルを使用します。
PMML Step(ステップ)の設定
フローにPMML Transformation Step(変換ステップ)を追加したら、これを設定しなくてはいけません。これには、PMMLモデルのアップロードが含まれます。モデルが適切に解析されたら、モデル内で指定されている入力フィールドと出力フィールドの設定をします。注意:使用されているモデルに、入力フィールドと出力フィールドが指定されているものとします。
入力設定
モデルの入力は、計算を実行するために必要なデータのフィールドを参照します。例えば、回帰モデルの場合、入力はモデルに必要な独立変数の一覧です。PMML Step(ステップ)を適切に実行するためには、データフィールドを、モデルが必要とするフィールドとマッピングしなくてはいけません。
出力設定
モデルの出力は、モデルが生成するようにデザインされた一連の結果フィールドです。出力が通常ひとつの予測されたフィールドである回帰モデルのような場合は、たったひとつのフィールドから出力を構成することもできます。しかし一方で、クラスタリングモデルの場合は、出力として指定された数のクラスタ、または各クラスタの重心までの距離を持つフィールドのいずれかを設定することができます。出力を設定する際にユーザーは、利用可能なフィールドから、どのフィールドを結果に表示するのか選択することができますが、少なくともひとつの出力フィールドを選択しなくてはいけません。出力フィールドのデータ型は、モデル内で指定されたものになりますが、特に指定されていない場合は、結果はテキストと見なされます。
例えば、モデルは客室等級と年齢を元に、タイタニックの乗客が支払った料金を予測するようにデザインすることができます。この場合、設定される入力は等級と年齢であり、選択される結果フィールドは料金です。
PMML Transformation Step(変換ステップ)の使用方法
こちらの項目は、PMML Transformation Step(変換ステップ)を使用してデータサイエンスモデルをYellowfinへ統合する方法について紹介します。
...
Note |
---|
出力カラム(列)のデータ型は、モデル内で指定されているデータ型を引き継ぎますが、特に指定されていない場合は、デフォルトとしてテキストが使用されます。 |
...
PMML Transformation Step(変換ステップ)の編集
PMMLファイルを、別のモデルを使用したものに置き換えるか、入力、または出力設定を変更することで、PMML Step(ステップ)を編集することができます。しかし、これはTransformation Flow(データ変換フロー)に影響を与えます。
多くの場合、フローはより複雑な構造を持ちますが、今回の例では、非常にシンプルなTransformation Flow(データ変換フロー)を表示しています。
...
- 一般化された線形モデル
- 一般化された低ランクモデリング
- k平均法
- XGBoost(H2OがLinux上で起動している場合に利用可能)
一般的なワークフロー
こちらがプロセスの簡単な概要です。こちらの項目では、これらのStep(ステップ)の大部分について、詳細に説明します。
- アクセス可能なH2Oインスタンスを準備するか、新しくセットアップをし、データサイエンスモデルを構築します。
- YellowfinインスタンスへH2Oのプラグインをインストールします。(プラグインは、マーケットプレイスからダウンロードできます。)プラグインのインストール方法は、こちらを参照してください。
- Yellowfinのデータ変換モジュールを使用して、Transformation Flow(データ変換フロー)を作成します。これには、モジュールへのデータのインポート、そして必要に応じたその他変換の適用が必要です。
- フローにH2O Tranformation Step(変換ステップ)を使用し、これを設定します。ステップの設定方法は、以下の情報を参照してください。
- Step(ステップ)を実行し、モデルがデータを使用して生成する出力を確認します。
Step(ステップ)の設定詳細
H2Oステップを設定するためには、有効なURLからH2Oのインスタンスへ接続し、データサイエンスモデルを選択しなくてはいけません。次に、モデルの入力フィールドを設定します。これは、データ変換フローからのデータとのマッピングにより行います。他のデータサイエンスモデル(PMMLなど)の出力の設定とは異なり、出力フィールドの設定をする必要はありません。生成される結果は、モデルの作成時に定義されます。
サポートしているモデルのカテゴリー
Yellowfinがサポートするモデルのタイプは、一般的に4つのカテゴリーに分類することができます。以下の一覧を参照してください。注意:モデルのカテゴリーを確認するには、H2O内のモデルの出力項目を参照してください。
以下は、各カテゴリーが生成するそれぞれの出力タイプです。
回帰:このカテゴリーに属するモデルは、データのすべてのロウ(行)について実際の予測値を生成します。
二項式:このタイプのモデルは、すべてのロウ(行)について予測されるクラスのテキストラベルを出力します。
多項式:(上記に準ずる)
クラスタリング:このようなモデルは、すべてのロウ(行)が属するクラスタのインデックス番号を示します。
モデルの出力の確認
多くの場合、ユーザーはモデルの出力を把握しています。しかし、H2Oのインスタンスからモデルを選択することで、出力を確認し、その設定を把握することができます。例えば、バイナリモデルの場合、出力はモデルのパラメーター内で確認することができます。
モデルの出力のデータ型
出力カラム(列)のデータ型は、モデル内の設定により異なります。「クラスタリング」と「回帰」カテゴリーに属するモデルの場合、これは「数値型」になります。他のカテゴリー場合は、「テキスト型」になります。
YellowfinでのH2O.aiの使用
パート1:H2O.aiのセットアップ
H2Oは、予測モデルを使用することのできる、モダンオープンソースAIプラットフォームです。最新バージョンのH2Oは、こちらからダウンロードすることができます。
H2Oは、ローカル端末上で使用することもできますし、URLを通してアクセス可能な公的なスペースで使用することもできます。
H2Oをローカル端末上で実行するには、以下の手順に従います。
H2O.aiをダウンロードします。
ディレクトリへファイルを解凍します。
ターミナル(Appleターミナル、またはMSDOS)を開き、取得されたフォルダへ移動します。
「」からjarを実行します。これにより、H2O.aiサーバーが起動します。
デフォルトでは、H2O.aiサーバーは「」で実行されます(適切にセットアップされた場合)。注意:H2OインスタンスのURLや、その他設定をカスタマイズすることができます。
H2O URL
H2Oインスタンスへの接続を確立するためには、インスタンスのURLが必要です。ローカル端末に設定されている場合、これはデフォルト設定()、またはローカルセットアップでも、リモートアクセス(リモートアクセスをする場合は、安定したインターネット接続が必要です)においてもIPアドレスを含む設定()になります。
注意:適切に認識されるために、