摘要:
利用Hadoop,Spark,Hbase等构建分布式大数据分析平台,在此基础上通过数据采集和预处理获得健康的数据集,建立并行随机森林算法的能耗回归预测模型,全面分析和比较基于随机森林预测模型的输入与模型参数、输出之间的关系。重点比较分析了决策树数量、决策树深度、最大分裂数等参数对训练模型精度、运行时效、复杂度的影响,得到该预测模型的最优化参数,实现供电煤耗的精准预测与软测量计算。
肖祥武,文雯,白全生,胡卫东,李志金,刘克勤. 基于大数据平台和并行随机森林算法的能耗预测模型优化[J]. 华电技术, 2018, 40(7): 1-4.
XIAO Xiangwu, WEN Wen, BAI Quansheng, HU Weidong, LI Zhijin, LIU Keqing.
Optimization of energy consumption forecast model based on big data platform and parallel random forest
[J]. Huadian Technology, 2018, 40(7): 1-4.