下面给你整理一篇Spark 3.5 本地模式(local mode)安装部署详解,涵盖安装环境、步骤、配置以及常见问题排查,适合初学者和快速实验环境使用。
一、Spark 3.5 简介
- Apache Spark 是一个快速、通用、可扩展的大数据处理引擎,支持批处理、流处理、机器学习和图计算。
- Spark 3.5 是 Spark 最新稳定版本,带来了性能优化和更多 SQL / DataFrame 功能。
- Local 模式:适合单机调试和学习,不依赖 Hadoop/YARN/Mesos 集群。所有作业在单机 JVM 内运行。
二、安装前准备
- 系统环境
- Windows / Linux / macOS 均可,本指南以 Linux 为例。
- 确保安装 Java 8 / 11 / 17(Spark 3.5 支持 Java 8+)。
java -version- 安装 Python 3.8+(如需 PySpark 支持 Python API)。
python3 --version - 可选依赖
- 如果需要读取 HDFS / Hive / Delta Lake 文件,可安装 Hadoop 客户端或 Hive JDBC。
- 本地模式不强制依赖 Hadoop,但推荐安装方便将来扩展。
三、下载与安装 Spark 3.5
- 下载 Spark 3.5 二进制包
- 官网下载:https://spark.apache.org/downloads.html
- 选择
Pre-built for Apache Hadoop 3.3 and later版本。
- 解压到指定目录
tar -zxvf spark-3.5.0-bin-hadoop3.tgz mv spark-3.5.0-bin-hadoop3 /opt/spark - 配置环境变量
编辑~/.bashrc或~/.zshrc:export SPARK_HOME=/opt/spark export PATH=$SPARK_HOME/bin:$PATH export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH export PYSPARK_PYTHON=python3执行:source ~/.bashrc - 验证安装
spark-shell出现 Scala 提示符scala>,说明安装成功。pyspark出现 Python 提示符>>>,说明 PySpark 可用。
四、Spark local 模式配置
- 配置 Spark 默认 Master
在$SPARK_HOME/conf/spark-defaults.conf(如果没有可复制spark-defaults.conf.template):spark.master local[*] spark.app.name MyLocalApp spark.executor.memory 2g spark.driver.memory 2g spark.sql.shuffle.partitions 4local[*]表示使用所有 CPU 核心运行。spark.executor.memory/spark.driver.memory可根据机器内存调整。
- 本地模式运行示例
Scala 示例:val spark = SparkSession.builder() .appName("LocalTest") .master("local[*]") .getOrCreate() val df = spark.read.json("examples/src/main/resources/people.json") df.show()Python 示例(PySpark):from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("LocalTest") \ .master("local[*]") \ .getOrCreate() df = spark.read.json("examples/src/main/resources/people.json") df.show()
五、常用命令(local 模式)
- 提交作业:
spark-submit --master local[*] your_app.py
- 启动交互式 shell:
spark-shell # Scala
pyspark # Python
- 查看可用配置:
spark-submit --help
六、常见问题排查
| 问题 | 解决方案 |
|---|---|
JAVA_HOME not set | 设置 JAVA_HOME 环境变量指向 JDK 目录 |
| Python 与 PySpark 不匹配 | 设置 PYSPARK_PYTHON=python3 |
| 内存不足 | 调整 spark.driver.memory 和 spark.executor.memory |
| 读取文件报错 | 确认文件路径是否正确,本地模式路径相对于执行命令的目录 |
| 端口被占用 | 本地模式也会启动 web UI,默认 4040,可修改 spark.ui.port |
七、总结
- Spark local 模式适合快速实验、学习和单机数据处理。
- 安装步骤:安装 Java → 下载 Spark → 配置环境变量 → 验证 shell / pyspark。
- 配置
spark.master=local[*]即可使用所有 CPU 核心。 - 常见问题主要是环境变量、内存和文件路径,提前排查可避免报错。
发表回复