Spark比MR快的原因
1、Spark基于内存的计算
2025年08月07日
在SparkSQL中,在Spark1.3版本时为SparkSQL提供了一种新的数据集结构DataFrame, 而从Spark1.6开始提供了一种新的弹性的、懒执行的、分布式的抽象数据集Dataset,那么它与RDD之前有着什么样的关联呢?
来看看源码中的介绍:
2025年08月07日
1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。
2025年08月07日
《大数据和人工智能交流》头条号向广大初学者新增C 、Java 、Python 、Scala、javascript 等目前流行的计算机、大数据编程语言,希望大家以后关注本头条号更多的内容。
(一)Spark简介
2025年08月07日
本文主要从以下几个方面介绍SparkSQL中的DataFrame:
第一,SparkSQL的作用
第二,什么是DataFrame
第三,DataFrame与RDD的区别
第四,DataFrame的创建与使用 (Spark1.x与Spark2.x两种不同版本)
SparkSQL是spark处理结构化数据的一个模块,它的前身是shark,与基础的spark RDD不同,SparkSQL提供了结构化数据及计算结果等信息的接口,在内部,SparkSQL使用这个额外的信息去执行额外的优化,有几种方式可以跟SparkSQL进行交互,包括SQL和DataSet API,使用相同的执行引擎进行计算的时候,无论是使用哪一种计算引擎都可以快速的计算。
2025年08月07日
作者 | 郭俊
封图 | BanburyTang
字节跳动数据仓库架构团队负责数据仓库领域架构设计,支持字节跳动几乎所有产品线(包含但不限于抖音、今日头条、西瓜视频、火山视频)数据仓库方向的需求,如 Spark SQL / Druid 的二次开发和优化。字节跳动数据仓库架构负责人郭俊从 SparkSQL 的架构简介、字节跳动在 SparkSQL 引擎上的优化实践,以及字节跳动在 Spark Shuffle 稳定性提升和性能优化三个方面全方位地分享了字节跳动在 Spark SQL 上的核心优化的探索与实践。
2025年08月07日
Apache Spark是一个开源集群运算框架,相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。
Spark 在存储器内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快上 100 倍,即便是运行程序于硬盘时,Spark 也能快上 10 倍速度。Spark 允许用户将数据加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。
2025年08月07日
在第二篇|Spark core编程指南一文中,对Spark的核心模块进行了讲解。本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上构建的,于2014年5月发布。从名称上可以看出,该模块是Spark提供的关系型操作API,实现了SQL-on-Spark的功能。对于一些熟悉SQL的用户,可以直接使用SQL在Spark上进行复杂的数据处理。通过本文,你可以了解到:
2025年08月07日
美团图灵机器学习平台在长期的优化实践中,积累了一系列独特的优化方法。本文主要介绍了图灵机器学习平台在内存优化方面沉淀的优化技术,我们深入到源码层面,介绍了Spark算子的原理并提供了最佳实践。希望为读者带来一些思路上的启发。