网站首页 > 精选文章 正文
最近项目需要用到spark大数据相关技术,周末有空spark环境搭起来...
目标
spark,python运行环境部署在linux服务器
个人通过vscode开发
通过远程python解释器执行代码
准备
腾讯云服务器一台
个人笔记本一台
vscode
spark3.2,anaconda3,jdk1.8
spark安装
# 下载spark安装包
wget https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
# 创建安装目录/export/server
mkdir /export/server
# 安装包解压
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C "/export/server"
# 创建spark安装目录软连接
ln -s /export/server/spark-3.2.1-bin-hadoop3.2/ /export/server/spark
# 进入spark可执行程序目录,执行pyspark
cd /export/server/spark/bin; ./pyspark => JAVA_HOME is not set
提示jdk未安装,下一步进行jdk安装...
jdk安装
# 将准备好的jdk安装包jdk-8u161-linux-x64.tar.gz解压至/export/server目录
tar -zxvf /home/dev/jdk-8u161-linux-x64.tar.gz -C /export/server
# 创建jdk安装目录软连接
ln -s jdk1.8.0_161/ jdk8
# 添加JAVA_HOME环境变量
vi /etc/profile,添加
export JAVA_HOME=/export/server/jdk8
export PATH=$PATH:$JAVA_HOME/bin
# 再次执行/export/server/spark>bin/pyspark => env: python3: No such file or directory
提示python3没有安装,下一步进行python3安装...
Anaconda3安装(即python)
# 下载anaconda3安装包
wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh
# 安装anoconda3
sh Anaconda3-2022.05-Linux-x86_64.sh
在安装过程中的交互提示依次输入: enter => yes => /export/server/anaconda3 => yes
直到安装完成
# 重新登录终端看见(base)开头表示安装成功
# vi /etc/profile,添加
export PYSPARK_PYTHON=/export/server/anaconda3/bin/python
# 再次执行/export/server/spark>bin/pyspark => pyspark启动成功,进入交互页面
# 输入python测试代码:
>>>
>>> sc.parallelize([1,2,3,4,5]).map(lambda x: x+1).collect()
[2, 3, 4, 5, 6] #运行结果
# pyspark运行时,在新开的终端检查4040端口监听情况
netstat -anp|grep 4040
tcp6 0 0 :::4040 :::* LISTEN -
每一个Spark程序在运行的时候, 会绑定到Driver所在机器的4040端口上.
如果4040端口被占用, 会顺延到4041...,可通过浏览器访问 4040端口
验证
# 通过spark-submit执行.py脚本,执行官方sample:
/export/server/spark>bin/spark-submit \
/export/server/spark/examples/src/main/python/pi.py 10
# 自定义脚本helloworld.py:
print("hello,world!")
# 通过spark-submit执行
/export/server/spark>bin/spark-submit /export/demo/helloworld.py
hello,world! # 输出
PySpark库安装
conda create -n pyspark python=3.9 #创建虚拟环境pyspark
conda activate pyspark #切换虚拟环境为pyspark
# 检查虚拟环境pyspark的python解释器路径
type python => python is /export/server/anaconda3/envs/pyspark/bin/python
vi /etc/profile编辑
PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple #安装PySpark
# 验证PySpark
/export/server>python
>>> import pyspark # import pyspark不报错,表示pyspark库安装成功
本地vscode开发远程代码、使用远程解释器执行配置
本地免密访问服务器配置:将本地的公钥(C:\\Users\\your account\\.ssh\\id_rsa.pub)内容
配置在需要免密访问的linux服务器用户的$HOME/.ssh/authorized_keys文件中
vscode安装remote development插件,重启vscode
vscode添加远程ssh targets:
a) 点击ssh targets "+"
b) 在弹出框输入 ssh username@ip 回车
c) 在弹出的下拉项中选择 C:\\Users\\your account\\.ssh\\config
d) 编辑config文件
Host xxx #无需编辑
HostName xxx #无需编辑
User xxx #无需编辑
ForwardAgent yes # 需要新增
IdentityFile C:\\Users\\your account\\.ssh\\id_rsa #需要新增
vscode安装python插件
vscode添加远程python解释器:
a) Ctrl + Shift + p打开命名面板
b) 输入Python: Select Interpreter选择解释器
c) 输入远程python解释器路径: /export/server/anaconda3/envs/pyspark/bin/python
vscode开发,远程执行验证
vscode选择远程服务器打开目录
vscode中新建helloworld.py文件,并录入print("hello,world!")
vscode中执行helloworld.py#使用的是远程解释器
vscode提升缺少package,linux服务安装python包:
pip install jupyter notebook -i https://pypi.tuna.tsinghua.edu.cn/simple
在vscode中重新运行helloworld.py运行成功
完成,以后就可以开心地编写pyspark代码了,再也不担心本机卡卡卡了(*_*),附完成图一张:
猜你喜欢
- 2025-07-21 高效处理报表,掌握原生JS打印和导出报表为PDF的顺畅技巧!
- 2025-07-21 pywal,一个了不起的 Python 库!(python site.py)
- 2025-07-21 「教你一招」VS Code 如何配置C/C++开发环境?
- 2025-07-21 他居然试图教会我?开源了一款四层板设计的开发板
- 2025-07-21 30+年码龄C++大佬败给Claude 4:“我耗时200+小时、4年未解的Bug,它仅用几小时就修复了!”
- 2025-07-21 通义灵码IDE没有中文?别急!现在来教你如何设置!
- 2025-07-21 盘点一个VScode中Python解释器选择的问题
- 2025-07-21 实用干货:分享一个自动切换输入法的IDE插件
- 2025-07-21 flutter初体验demo踩坑指南(flutter ng)
- 2025-07-21 再见VSCode!GoogleIDE正颠覆传统开发体验
- 最近发表
-
- Vue 前端开发——导入Excel/Csv(vue前端导入excel文件)
- element-ui实现动态表头的表格问题汇总
- 告别频繁登录!Nuxt3 + TS + Vue3实战:双Token无感刷新方案全解析
- 斯皮尔伯格:流媒体电影没资格拿奥斯卡?
- Vue3 “微商城”前台开发文档(vue前端开发工具)
- Ant Design of Vue 组件 a-table 如何横向排列
- 超简 Vue3+Ts 可视化拖拽设计器DreamDesign
- 基于 Vue.js 磁片栅格布局组件VueGridLayout
- vue中的select下拉框多选以及多选数据回显
- Vue脚手架使用Element UI(vue脚手架使用视频教程与步骤)
- 标签列表
-
- 向日葵无法连接服务器 (32)
- git.exe (33)
- vscode更新 (34)
- dev c (33)
- git ignore命令 (32)
- gitlab提交代码步骤 (37)
- java update (36)
- vue debug (34)
- vue blur (32)
- vscode导入vue项目 (33)
- vue chart (32)
- vue cms (32)
- 大雅数据库 (34)
- 技术迭代 (37)
- 同一局域网 (33)
- github拒绝连接 (33)
- vscode php插件 (32)
- vue注释快捷键 (32)
- linux ssr (33)
- 微端服务器 (35)
- 导航猫 (32)
- 获取当前时间年月日 (33)
- stp软件 (33)
- http下载文件 (33)
- linux bt下载 (33)