M12i.

学術書・マンガ・アニメ・映画の消費活動とプログラミングについて

Pentahoのデータに関するターミノロジー

Pentaho Data Integration(Kettle)を使っていろいろ試すうちに、「パラメータ」「変数」「環境変数」「ストリーム」「行(Rows)」「行(Row)」「列(Field)」といった用語法がなんとなくわかってきました。

まず「パラメータ」と「変数」と「環境変数」とJavaのプロパティはほとんど同義です。とくに「パラメータ」と「変数」とはもう表現のブレ以外の何ものでもないようです。

環境変数」は「パラメータ」のサブセットです。そしてkettle.propertiesで定義されたプロパティやOSが提供する(本来の意味の)環境変数は(Pentahoにおける)「環境変数」のサブセットです。

「パラメータ」とはKey(パラメータ名)とValue(パラメータ値)とで構成されるペアであり、あるKeyに対応する値は単一の決まった値しかとれないという点で、ストリーム(行あるいはRows)とは異なります。ストリームは1つ以上のFieldを持つRow(あるいはタプル)の集合であり、あるFieldに対応する値はRowごとに異なる値をとることができます。

またパラメータは結局のところプロパティなので型情報を持ちません(あるいは「すべて文字列型である」とも言えます)が、ストリームのFieldは型情報を持ちます。

以上、初歩的な話といえばまあそうなのですが、その「初歩的な話」を説明してくれている日本語情報ソースが見つからなかったのでここにメモしておきます。