Machine Learning with Spark

布克斯 全部内容, 电子书 78 次浏览 , 没有评论


使用Spark进行机器学习

本书介绍
这本书将教你有关流行的机器学习算法及其实现。你将学习各种机器学习概念是如何在Spark ML的上下文中实现的。您将从在单个和多个集群中安装Spark开始。接下来,您将看到如何执行基于Scala和python的星星之火程序。然后我们将获取一些数据集并深入研究聚类,分类和回归。最后,我们还将介绍使用Spark ml进行文本处理。

一旦你学习了这些概念,它们就可以被应用到绿色领域的实现中,或者将现有的系统迁移到这个新的平台上。

在这本书的结尾,你将获得技能,利用火花的功能,创建自己的可伸缩机器学习应用程序,并推动现代数据驱动的业务。

你会学到什么
使用最新版本的SMARK ML。使用Scala和python创建您的第一个SMACK程序。在您自己的计算机上以及在Amazon ec2上为SMARK建立和配置一个开发环境。访问公共机器学习数据集,并使用SMARK加载,处理,清理和转换数据。使用SMACK的机器学习库通过使用众所周知的机器学习模型来实现程序。处理大规模文本。数据,包括特征提取和使用文本数据作为机器学习模型的输入。编写火花函数来评估机器学习模型的性能。

目录
1.使用Spark启动和运行

1.在本地安装和设置Spark

2. Spark集群

3. Spark编程模型

4. SchemaRDD

5. Spark数据框

6. Scala中Spark程序的第一步

7. Java中Spark程序的第一步

8. Python中Spark程序的第一步

9. R中Spark程序的第一步

10.让Spark在Amazon EC2上运行

11.在Amazon Elastic Map Reduce上配置和运行Spark

12. Spark中的UI

13. Spark支持的机器学习算法

14.与现有库相比,使用Spark ML的好处

15. Google Compute Engine上的Spark Cluster – DataProc

16.总结

2.机器学习数学

1.线性  代数

2.梯度下降

3.先验,可能性和后验

4.微积分

5.绘图

6.总结

3.设计机器学习系统

1.什么是机器学习?

2.介绍MovieStream

3.机器学习系统的业务用例

4.机器学习模型的类型

5.数据驱动的机器学习系统的组件

6.机器学习系统的体系结构

7. Spark MLlib

8. Spark ML over Spark MLlib的性能改进

9.比较MLlib支持的算法

10. MLlib支持的方法和开发人员API

11. MLlib愿景

12. MLlib版本比较

13.总结

4.使用Spark获取,处理和准备数据

1.访问公开可用的数据集

2.探索和可视化您的数据

3.处理和转换数据

4.从数据中提取有用的功能

5.总结

5.使用Spark构建推荐引擎

1.推荐模型的类型

2.从数据中提取正确的功能

3.  培训  推荐模型

4.使用推荐模型

5.评估推荐模型的性能

6. FP-Growth  算法

7.总结

6.使用Spark构建分类模型

1.分类模型的类型

2.从数据中提取正确的功能

3.培训分类模型

4.使用分类模型

5.提高模型性能和调整参数

6.附加功能

7.总结

7.使用Spark构建回归模型

1.回归模型的类型

2.评估回归模型的性能

3.从数据中提取正确的功能

4.培训和使用回归模型

5.提高模型性能和调整参数

6.总结

8.使用Spark构建聚类模型

1.聚类模型的类型

2.从数据中提取正确的功能

3. K-means – 训练聚类模型

4. K-means – 评估聚类模型的性能

5.迭代对WSSSE的影响

6.平分KMeans

7.平分K-means – 训练聚类模型

8.高斯混合模型

9.总结

9.使用Spark降低维度

1.降维的类型

2.从数据中提取正确的功能

3.训练降维模型

4.使用降维模型

5.评估降维模型

6.总结

10.使用Spark进行高级文本处理

1.文本数据有什么特别之处?

2.从数据中提取正确的功能

3.使用tf-idf模型

4.评估文本处理的影响

5.使用Spark 2.0进行文本分类

6. Word2Vec模型

7.在20个新闻组数据集上使用Spark ML的Word2Vec

8.总结

11.使用Spark Streaming进行实时机器学习

1.在线学习

2.流处理

3.使用Spark Streaming进行在线学习

4.在线模型评估

5.结构化流媒体

6.总结

12. Spark ML的管道API

1.管道介绍

2.管道如何工作

3.机器学习管道的一个例子

4.总结
[ypbtn]https://link.jianshu.com/?t=https%3A%2F%2Fxiaoding.pipipan.com%2Ffs%2F1927055-242593341[/ypbtn]

 

发表评论

Go