在本章中,我们将介绍以下内容:使用内部数据源通过Spark 2.0创建RDD使用外部数据源通过Spark 2.0创建RDD使用filter() API使用Spark 2.0转换RDD使用超级有用的flatMap() API转换RDD使用set的操作API转换RDD使用grou...
在本章中,我们将介绍以下内容:
使用内部数据源通过Spark 2.0创建RDD
使用外部数据源通过Spark 2.0创建RDD
使用filter() API使用Spark 2.0转换RDD
使用超级有用的flatMap() API转换RDD
使用set的操作API转换RDD
使用groupBy()和reduceByKey()进行RDD转换/聚合
使用zip()API转换RDD
使用配对键值RDD进行join转换
使用成对的key value RDD对转换进行reduce和grouping
从Scala数据结构创建DataFrame
在没有SQL的情况下以编程方式在DataFrames上进行操作
从外部源加载DataFrame和设置
将DataFrame与标准SQL语言一起使用-SparkSQL
使用Scala序列使用Dataset API
从RDD创建和使用数据集,然后再次返回
结合使用Dataset API和SQL使用JSON
使用域对象使用Dataset API进行功能编程
实施强大的机器学习系统
在本章中,我们将介绍:
Spark的基本统计API,可帮助您构建自己的算法
用于现实机器学习应用程序的ML管道
用Spark规范化数据
拆分数据以进行培训和测试
新的数据集API的常见操作
从Spark 2.0中的文本文件创建和使用RDD,DataFrame和Dataset
Spark ML的LabeledPoint数据结构
在Spark 2.0+中访问Spark集群
可以访问Spark Cluster Pre-Spark 2.0
在Spark 2.0中访问SparkContext相对于SparkSession对象的访问
Spark 2.0中的新模型导出和PMML标记
使用Spark 2.0进行回归模型评估
使用Spark 2.0进行二进制分类模型评估
使用Spark 2.0进行多标签分类模型评估
使用Spark 2.0进行多类分类模型评估
使用Scala Breeze库在Spark 2.0中制作图形
本文标题为:Apache Spark 2.x Machine Learning Cookbook(3) Spark的三种用于机器学习的数据火枪手-完美结合
- nginx中封禁ip和允许内网ip访问的实现示例 2022-09-23
- 解决:apache24 安装后闪退和配置端口映射和连接超时设置 2023-09-11
- KVM虚拟化Linux Bridge环境部署的方法步骤 2023-07-11
- 阿里云ECS排查CPU数据分析 2022-10-06
- CentOS7安装GlusterFS集群的全过程 2022-10-10
- IIS搭建ftp服务器的详细教程 2022-11-15
- 【转载】CentOS安装Tomcat 2023-09-24
- 教你在docker 中搭建 PHP8 + Apache 环境的过程 2022-10-06
- 利用Docker 运行 python 简单程序 2022-10-16
- CentOS_mini下安装docker 之 安装docker CE 2023-09-23
