申请免费体验一次课程

Spark大数据处理 - 进阶篇

本课程为Spark技术的提高课程,为期3天,培训目标是使学员基于Spark基础知识对Spark内部构件有更深的理解,从而掌握使用Apache Spark执行大规模数据分析的技能。主要涵盖两部分:

  • 如何操作/调整以获得Spark的最大性能。

  • 如何使用GraphX和MLib进行机器学习。

适合群体

Saprk从业人员或具有同等经验的开发人员

课程周期
3天
课程内容

一般Apache Spark:

  • 通过使用缓存和采用最佳方式来提高性能。

  • 使用explain-plan和Spark UI对运行缓慢的DataFrame查询进行故障排除。

  • 可视化工作如何分解成阶段性任务,并在Spark内执行。

  • 执行程序日志,跟踪驱动程序堆栈和本地模式时导致的程序崩溃的故障排除。

  • 使用Databricks中的管理UI和日志对Spark作业进行故障排除。

  • 使用文档和其他资源,找到常见的Spark和Databricks问题的答案。

提取,处理和分析数据:

  • 使用DataFrames从多个联合数据源(JSON,关系数据库等)提取,转换和加载(ETL)数据。

  • 通过使用数据集(如果可能)或RDD(如果不可能与数据集)解析,使用转换和操作(map,flatMap,filter,reduce,reduceByKey)从非结构化数据源提取结构化数据。

  • 使用Python和Scala中的用户定义函数(UDF和UDAF)扩展DataFrames的功能。

  • 使用过滤和插补解析DataFrame行中缺少的字段。

  • 使用DataFrames和Datasets执行探索性数据分析(EDA),以:

    计算描述性统计。

    识别数据质量问题。

    更好地了解数据集。

可视化数据:

  • 使用Databricks和流行的可视化库(d3,ggplot,matplotlib)将可视化集成到Spark应用程序中。

  • 开发仪表板,提供“一览”摘要和报告。

机器学习:

  • 学习应用各种回归和分类模型,包括监督和非监督。

  • 使用Spark MLlib的基于DataFrame的估计器训练分析模型,包括:线性回归,决策树,逻辑回归和k均值。

  • 使用Spark MLlib变换器对数据集执行预处理,包括:标准化,标准化,一热编码和二进制化。

  • 创建Spark MLlib以创建包括转换,评估和分析模型的处理流水线。

  • 通过将数据划分为训练和测试数据集以及使用Spark MLlib评估器来评估模型精度。

  • 通过将交叉验证集成到Spark MLlib中来调整参数。

  • 使用基于RDD的Spark MLlib功能,通过将DataFrames转换为RDD并应用RDD转换和操作来进行计算。

  • 在Spark中排查和调整机器学习算法。

  • 了解并构建了Spark的通用机器学习通道。

本门课程提供半天的免费试听名额,感兴趣请填写以下表格

姓名: *
联系电话: *
邮箱: *
补充咨询:
扫一扫