怎样安装 Apache CentOS 8 上的 Spark

在本教程中,我们将向您展示怎样安装 Apache 在 CentOS 8 上使用 Spark。对于那些不知道的人, Apache Spark 是一个快速通用的集群计算系统。 它提供了 Java、Scala 和 Python 中的高级 API,以及支持整体执行图表的优化引擎。 它还支持丰富的高级工具集,包括用于 SQL 和结构化信息处理的 Spark SQL、用于机器学习的 MLlib、用于图形处理的 GraphX 和 Spark Streaming。

本文假设您至少具有 Linux 的基本知识,知道怎样使用 shell,并且最重要的是,您在自己的 VPS 上托管您的站点。 安装非常简单,假设您在 root 帐户中运行,否则您可能需要添加 ‘sudo‘ 到获得 root 权限的命令。 我将向您展示逐步安装 Apache 在 CentOS 8 上运行 Spark。

安装 Apache CentOS 8 上的 Spark

步骤 1. 首先,让我们首先确保您的系统是最新的并安装所有必需的依赖项。

sudo dnf install epel-release
sudo dnf update

步骤 2. 安装 Java。

本文中的 Java 安装已在上一篇文章中介绍过。 我们将参考Java安装文章。 然后我们通过下面的命令行查看 Java 版本:

java -version

步骤 3. 安装 Scala。

Apache Spark是在Scala编程语言上实现的,所以我们要安装Scala才能运行 Apache Spark,所以我们只需要确保 Java 和 Python 存在:

wget https://www.scala-lang.org/files/archive/scala-2.13.4.tgz
tar xvf scala-2.13.4.tgz
sudo mv scala-2.13.4 /usr/lib
sudo ln -s /usr/lib/scala-2.13.4 /usr/lib/scala
export PATH=$PATH:/usr/lib/scala/bin

安装后,检查Scala版本:

scala -version

步骤 4. 安装 Apache 在 CentOS 8 上运行 Spark。

现在我们下载最新版本的 Apache Spark来自其官方来源:

wget https://downloads.apache.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz
tar -xzf spark-3.0.1-bin-hadoop2.7.tgz
export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

在启动 spark 之前设置一些环境变量:

echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile
echo 'export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7' >> .bash_profile
echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile

独立的 Spark 集群可以手动启动,即在每个节点上执行启动脚本,或者简单地使用可用的 启动脚本. 为了测试,我们可以在同一台机器上运行 master 和 slave 守护进程:

./sbin/start-master.sh

步骤 5. 配置防火墙 Apache 火花。

运行以下命令打开防火墙上的端口:

sudo firewall-cmd --permanent --zone=public --add-port=7077/tcp
sudo firewall-cmd --reload

步骤 6. 访问 Apache 星火网络界面。

Apache 默认情况下,Spark 将在 HTTP 端口 7077 上可用。 打开您最喜欢的浏览器并导航到 https://your-domain.com:7077 或者 https://server-ip-address:7077 并完成所需的步骤以完成安装。

恭喜! 您已成功安装 Apache 火花。 感谢您使用本教程进行安装 Apache CentOS 8 系统上的 Spark 开源框架。 如需更多帮助或有用信息,我们建议您查看 官方 Apache 星火网站.