ApacheにDataFrameがありますSpark整数の配列で、ソースは画像のセットです。最終的にはPCAを実行したいのですが、自分の行列から行列を作成するだけで問題が発生します。配列RDDからマトリックスを作成するにはどうすればよいですか?
> imagerdd = traindf.map(lambda row: map(float, row.image))
> mat = DenseMatrix(numRows=206456, numCols=10, values=imagerdd)
Traceback (most recent call last):
File "<ipython-input-21-6fdaa8cde069>", line 2, in <module>
mat = DenseMatrix(numRows=206456, numCols=10, values=imagerdd)
File "/usr/local/spark/current/python/lib/pyspark.Zip/pyspark/mllib/linalg.py", line 815, in __init__
values = self._convert_to_array(values, np.float64)
File "/usr/local/spark/current/python/lib/pyspark.Zip/pyspark/mllib/linalg.py", line 806, in _convert_to_array
return np.asarray(array_like, dtype=dtype)
File "/usr/local/python/conda/lib/python2.7/site- packages/numpy/core/numeric.py", line 462, in asarray
return array(a, dtype, copy=False, order=order)
TypeError: float() argument must be a string or a number
私が考えることができるすべての可能な配置から同じエラーが発生します:
imagerdd = traindf.map(lambda row: Vectors.dense(row.image))
imagerdd = traindf.map(lambda row: row.image)
imagerdd = traindf.map(lambda row: np.array(row.image))
やってみたら
> imagedf = traindf.select("image")
> mat = DenseMatrix(numRows=206456, numCols=10, values=imagedf)
トレースバック(最後の最後の呼び出し):
File "<ipython-input-26-a8cbdad10291>", line 2, in <module>
mat = DenseMatrix(numRows=206456, numCols=10, values=imagedf)
File "/usr/local/spark/current/python/lib/pyspark.Zip/pyspark/mllib/linalg.py", line 815, in __init__
values = self._convert_to_array(values, np.float64)
File "/usr/local/spark/current/python/lib/pyspark.Zip/pyspark/mllib/linalg.py", line 806, in _convert_to_array
return np.asarray(array_like, dtype=dtype)
File "/usr/local/python/conda/lib/python2.7/site-packages/numpy/core/numeric.py", line 462, in asarray
return array(a, dtype, copy=False, order=order)
ValueError: setting an array element with a sequence.
入力例を提供しなかったので、id
が行番号で、image
に値が含まれている場合、多かれ少なかれ次のように見えると思います。
traindf = sqlContext.createDataFrame([
(1, [1, 2, 3]),
(2, [4, 5, 6]),
(3, (7, 8, 9))
], ("id", "image"))
最初に理解する必要があるのは、DenseMatrix
がローカルデータ構造であることです。正確には、numpy.ndarray
のラッパーです。現在(Spark 1.4.1)、PySparkMLlibには同等の分散版はありません。
Dense Matrixは、3つの必須引数numRows
、numCols
、values
を取ります。ここで、values
はローカルデータ構造です。あなたの場合、最初に収集する必要があります:
values = (traindf.
rdd.
map(lambda r: (r.id, r.image)). # Extract row id and data
sortByKey(). # Sort by row id
flatMap(lambda (id, image): image).
collect())
ncol = len(traindf.rdd.map(lambda r: r.image).first())
nrow = traindf.count()
dm = DenseMatrix(nrow, ncol, values)
最後に:
> print dm.toArray()
[[ 1. 4. 7.]
[ 2. 5. 8.]
[ 3. 6. 9.]]
編集:
Spark 1.5+では、次のようにmllib.linalg.distributed
を使用できます。
from pyspark.mllib.linalg.distributed import IndexedRow, IndexedRowMatrix
mat = IndexedRowMatrix(traindf.map(lambda row: IndexedRow(*row)))
mat.numRows()
## 4
mat.numCols()
## 3
ただし、現在のところ、APIは実際に役立つように制限されています。