본문 바로가기
데이터 & 머신러닝/Bigdata

spark 설치하기 (hadoop환경)

by 작은소행성 2021. 6. 17.

 

 

설치하고자 하는 hadoop과 spark의 버전을 확인한다.

http://spark.apache.org/downloads.html

 

 

 

 

설치파일 다운하기

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz

 

 

 

압축풀기

tar -zvf spark-3.1.2-bin-hadoop2.7.tgz

 

 

디렉토리 이름 변경하기

mv spark-3.1.2-bin-hadoop2.7.tgz/ spark

 

 

python3와 jupyter로 pyspark를 실행하기 위한 설정

cp conf/spark-env.sh.template conf/spark-env.sh

 

 

 

파이썬에서 pyspark 사용하기 위해 설치

pip install pyspark

 

 

환경변수 설정하기 

.bash_profile 에 아래 내용을 추가하고 변경된 내용을 적용하기

[root@localhost spark]$ nano .bash_profile

[root@localhost spark]$ . ~/.bash_profile

jupyter notebook 사용을 위한 설정

 

 

 

spark 의 실행파일들은 bin폴더에, spark 서버 관련 파일들은 sbin안에 들어있다

 

scala shell 을 실행시켜본다.

[root@localhost spark]$ bin/spark-shell

 

:q 로 스칼라 스크립트를 종료할 수 있다

 

 

 

 

 

 

4040포트로 spark 에 접속할 수 있다.

스칼라 스크립트를 종료하면 접속은 안된다.

 

 

 

 

커널설치하기

pip install spylon-kernel

 

 

 

spark 제대로 작동하는데 테스트를 실행해본다.

 

### 테스트

 spark-submit \

     --master spark://ubuntu0:7077 \

     --class org.apache.spark.examples.SparkPi \

     ~/spark/examples/jars/spark-examples*.jar \

     100


 

나의 경우 spark 가 4040포트여서

localhost:4040 에 접속해서 확인할 수 있었다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형