如何使用pycharm连接Databricks的步骤详解
作者:NancyNancy_ 发布时间:2023-01-28 23:19:03
在本地使用pycharm连接databricks,大致步骤如下:
首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。
(下面的图渣渣,因为直接拖进来的)
第0步:检查
检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
第1步:收集databricks的信息
查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version
查看cluster ulr,解析出下面信息
生成token,点击这个小人-user setting
最后,这是我们收集到的所有信息
第2步:安装anaconda
如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://www.jb51.net/article/196286.htm
第3步:使用anaconda创建虚拟环境
下面的参数信息,使用第一步收集的信息
打开anaconda的命令行
创建一个3.7版本的虚拟隔离环境
conda create -n dbconnect python=3.7
使用环境
conda activate dbconnect
卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)
pip uninstall pyspark
下面开始安装包,但是为了让安装速度快一些,使用清华镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes
查看是否切换到镜像
conda config --show channels
可以看到已经切换
安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)
pip install -U databricks-connect==6.4.*
连接远端databricks,并输入第一步收集的相关信息
databricks-connect configure
测试是否已经连接上:
databricks-connect test
已经在启动节点了
查看databricks,可以看到
第4步:pycharm导入虚拟环境
打开pycahrm,点击setting
选择解释器,点击小齿轮的add'
选择刚才我们创建好的dbconnect
点击ok,可以看到已经选好了环境
不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包
conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1
在pycharm测试运行一下:
import pandas as pd
import numpy as np
# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))
from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)
print(df.head(5))
去databrick的cluster log看一下,已经启动了节点,正在运行
来源:https://blog.csdn.net/leafdown_/article/details/108745074


猜你喜欢
- SQL Server数据库查询速度慢的原因有很多,常见的有以下几种:1、没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)
- ltp是哈工大出品的自然语言处理工具箱, pyltp是python下对ltp(c++)的封装.在linux下我们很容易的安装pyltp, 因
- 在编程时你一定碰到过时间触发的事件,在VB中有timer控件,而asp中没有, 假如你要不停地查询数据库来等待一个返回结果的话,我想你一定知
- <title>无标题文档</title> <script language="javascript&
- 前言好记性不如烂笔头!最近在接口测试,以及爬虫相关,需要用到Python中的requests库,之前用过,但是好久没有用又忘了,这次就把这块
- 前言前面几个章节我们学习了对于普通文件的操作,比如说文件的创建、复制粘贴、裁剪粘贴、文件名的重命名、删除等等。另外还学习了一些基本练习,如何
- 在了解装饰器的之前一定要先了解函数作为参数传递, 什么是函数内嵌,请参考我之前写的博客函数简介因为在python里面,函数也是对象,也可以作
- 先贴代码package mainimport ("fmt")// Send the sequence 2, 3, 4,
- 声明定位元素:position属性值设置除默认值static以外的元素,包括relative,absolute,fixed。平台:win/I
- 引子在工作中,我时不时地会需要在Go中调用外部命令。前段时间我做了一个工具,在钉钉群中添加了一个机器人,@这个机器人可以让它执行一些写好的脚
- #sidebar div#live_chat a { background: url("scroll/live_chat1.jpg
- 触发器权限和所有权CREATE TRIGGER 权限默认授予定义触发器的表所有者、sysadmin 固定服务器角色成员以及 db_owner
- 由于测试环境上面使用的zabbix服务器配置比较低,经常会遇到性能瓶颈(主要是数据库和磁盘I/O等),于是倒逼我使用了一些方式来缓解这些问题
- 导包import “github.com/smartystreets/goconvey”核心API顶
- 我就废话不多说了,大家还是直接看代码吧~#!/usr/bin/env python# -*- coding: utf-8 -*-import
- 给静态网页加密的方法有很多,有的简单有的复杂。前两天看见有人问静态网页加密问题,就写了这个代码思路:加密时:先把用户的密钥A用md5加密为B
- 简介mysql应该是我们在日常工作中使用到的一个非常普遍的数据库,虽然mysql现在是oracle公司的,但是它是开源的,市场占有率还是非常
- 错误信息:ERROR 1862 (HY000): Your password has expired. To log in you must
- 安装(fastcgi模式)的时候,常常有这样一句命令:/usr/local/webserver/php/bin/phpize一、phpize
- 不过首先你会发现,你在不同的地区或者不同的网络(电信、联通、移动)的情况下,转换后的IP地址很可能是 不一样的,这首先涉及到负载均衡的第一步