Hadoop 第7页

Apache Spark字数示例

在Spark单词计数示例中, 我们发现每个单词在特定文件中存在的频率。在这里, 我们使用Scala语言执行Spark操作。执行Spark单词计数示例的步骤在此示例中, 我们找到并显示每个单词的出现次数。在本地计算机上创建一个文本文件,...

本文概述先决条件听众问题 Apache Spark教程提供了Spark的基本和高级概念。我们的Spark教程专为初学者和专业人士设计。 Spark是用于大规模数据处理的统一分析引擎, 包括用于SQL, 流, 机器学习和图形处理的内置模...

本文概述广播变量累加器在Spark中, 当任何函数传递给转换操作时, 它将在远程集群节点上执行。它适用于函数中使用的所有变量的不同副本。这些变量将复制到每台计算机, 并且远程计算机上的变量的任何更新都不会还原到驱动程序。广播变量广...

通过将数据持久存储在操作中的内存中, Spark提供了一种方便的方法来处理数据集。在保留RDD时, 每个节点都会将其计算的所有分区存储在内存中。现在, 我们还可以在该数据集的其他任务中重用它们。我们可以使用persist()或cache(...

本文概述转型行动 RDD提供两种类型的操作：转型行动转型在Spark中, 转换的作用是从现有数据集中创建新数据集。转换被认为是惰性的, 因为它们仅在动作需要将结果返回给驱动程序时才计算。让我们看一些常用的RDD转换。转型描...

本文概述并行集合外部数据集 RDD（弹性分布式数据集）是Spark的核心抽象。它是元素的集合, 分布在集群的各个节点上, 因此我们可以对其执行各种并行操作。有两种创建RDD的方法：并行化驱动程序中的现有数据引用外部存储系统中的数据...

本文概述 Apache Spark的历史 Apache Spark的功能 Spark的用途 Apache Spark是一个开放源代码群集计算框架。其主要目的是处理实时生成的数据。 Spark建立在Hadoop MapReduce的顶部。它经...

在本节中, 我们将执行Spark的安装。因此, 请按照以下步骤操作。下载Apache Spark tar文件。点击这里解压下载的tar文件。打开bashrc文件。现在, 在最后复制以下火花路径。更新环境变量让我们在命令提示符下测...

本文概述火花芯 Spark SQL 火花流 MLlib GraphX Spark项目由不同类型的紧密集成的组件组成。 Spark的核心是一个计算引擎, 可以调度, 分发和监视多个应用程序。让我们详细了解每个Spark组件。火花芯 Sp...

在Spark char计数示例中, 我们发现特定文件中每个字符的出现频率。在这里, 我们使用Scala语言执行Spark操作。执行Spark字符计数示例的步骤在此示例中, 我们找到并显示每个字符的出现次数。在本地计算机上创建一个文本文...