pyspark

    [pyspark] union can only be performed on tables with the same number of columns

    기본 Spark 동작 union은 표준 SQL 동작이므로 위치별로 일치한다. 두 DataFrames의 스키마에는 동일한 순서로 동일한 필드가 있는 동일한 필드가 포함되어야 하는데 그러지 않은 경우에 생기는 에러이다. 컬럼의 개수가 다르거나 이름이 다른지 확인해본다.

    [pyspark] Cannot Call methods on a stopped SparkContext

    [pyspark] Cannot Call methods on a stopped SparkContext

    zeppelin 에서 pyspark를 실행시켰는데 다음 이미지처럼 sparkContext was shut dow 으로 sparkContext가 종료되었다고 나왔다. 해결방법으로는 인터프리터를 재시작하면된다. 제플린 우측 상단에 유저이름 클릭 Interpreter 클릭 Interpreter 중 spark 나 spark2를 찾아 restart 버튼을 누르면된다. restart 를 누르면 스파크 인터프리터가 재시작되며 zeppelin을 다시 실행시키면 정상적으로 결과가 나온다.