Spark MLib 基本统计汇总
时间:2016-06-02 20:05:05
收藏:0
阅读:247
1. 概括统计 summary statistics
MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。
colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、均值、方差等等。
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics}
val observations: RDD[Vector] = ... // define an RDD of Vectors
// Compute column summary statistics.
val summary: MultivariateStatisticalSummary = Statistics.colStats(observations)
println(summary.mean) // a dense vector containing the mean value for each column
println(summary.variance) // column-wise variance
println(summary.numNonzeros) // number of nonzeros in each column
2. 相关性
原文:http://www.cnblogs.com/skyEva/p/5554130.html
评论(0)