下面给你整理一篇Spark 3.5 本地模式(local mode)安装部署详解,涵盖安装环境、步骤、配置以及常见问题排查,适合初学者和快速实验环境使用。


一、Spark 3.5 简介

  • Apache Spark 是一个快速、通用、可扩展的大数据处理引擎,支持批处理、流处理、机器学习和图计算。
  • Spark 3.5 是 Spark 最新稳定版本,带来了性能优化和更多 SQL / DataFrame 功能。
  • Local 模式:适合单机调试和学习,不依赖 Hadoop/YARN/Mesos 集群。所有作业在单机 JVM 内运行。

二、安装前准备

  1. 系统环境
    • Windows / Linux / macOS 均可,本指南以 Linux 为例。
    • 确保安装 Java 8 / 11 / 17(Spark 3.5 支持 Java 8+)。
    java -version
    • 安装 Python 3.8+(如需 PySpark 支持 Python API)。
    python3 --version
  2. 可选依赖
    • 如果需要读取 HDFS / Hive / Delta Lake 文件,可安装 Hadoop 客户端或 Hive JDBC。
    • 本地模式不强制依赖 Hadoop,但推荐安装方便将来扩展。

三、下载与安装 Spark 3.5

  1. 下载 Spark 3.5 二进制包
  2. 解压到指定目录 tar -zxvf spark-3.5.0-bin-hadoop3.tgz mv spark-3.5.0-bin-hadoop3 /opt/spark
  3. 配置环境变量
    编辑 ~/.bashrc~/.zshrcexport SPARK_HOME=/opt/spark export PATH=$SPARK_HOME/bin:$PATH export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH export PYSPARK_PYTHON=python3 执行: source ~/.bashrc
  4. 验证安装 spark-shell 出现 Scala 提示符 scala>,说明安装成功。 pyspark 出现 Python 提示符 >>>,说明 PySpark 可用。

四、Spark local 模式配置

  1. 配置 Spark 默认 Master
    $SPARK_HOME/conf/spark-defaults.conf(如果没有可复制 spark-defaults.conf.template): spark.master local[*] spark.app.name MyLocalApp spark.executor.memory 2g spark.driver.memory 2g spark.sql.shuffle.partitions 4
    • local[*] 表示使用所有 CPU 核心运行。
    • spark.executor.memory / spark.driver.memory 可根据机器内存调整。
  2. 本地模式运行示例
    Scala 示例val spark = SparkSession.builder() .appName("LocalTest") .master("local[*]") .getOrCreate() val df = spark.read.json("examples/src/main/resources/people.json") df.show() Python 示例(PySpark)from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("LocalTest") \ .master("local[*]") \ .getOrCreate() df = spark.read.json("examples/src/main/resources/people.json") df.show()

五、常用命令(local 模式)

  • 提交作业
spark-submit --master local[*] your_app.py

  • 启动交互式 shell
spark-shell           # Scala
pyspark               # Python

  • 查看可用配置
spark-submit --help


六、常见问题排查

问题解决方案
JAVA_HOME not set设置 JAVA_HOME 环境变量指向 JDK 目录
Python 与 PySpark 不匹配设置 PYSPARK_PYTHON=python3
内存不足调整 spark.driver.memoryspark.executor.memory
读取文件报错确认文件路径是否正确,本地模式路径相对于执行命令的目录
端口被占用本地模式也会启动 web UI,默认 4040,可修改 spark.ui.port

七、总结

  1. Spark local 模式适合快速实验、学习和单机数据处理。
  2. 安装步骤:安装 Java → 下载 Spark → 配置环境变量 → 验证 shell / pyspark
  3. 配置 spark.master=local[*] 即可使用所有 CPU 核心。
  4. 常见问题主要是环境变量、内存和文件路径,提前排查可避免报错。