본문 바로가기

Apache Spark

(3)
[Apache Spark] Dataframe의 Schema 지정하기 Pyspark에서 Header가 존재하지 않는 csv 파일을 Dataframe으로 불러올 때에 Schema를 지정하는 방법은 다음과 같습니다. 1. StructType을 이용하여 Schema를 정의하고, 이를 적용하는 방법 from pyspark.sql.types import StructType, StructField, StringType, IntegerType # 스키마 정의 schema = StructType([ StructField("column1", StringType(), True), StructField("column2", IntegerType(), True), StructField("column3", StringType(), True) ]) # CSV 파일을 DataFrame으로 읽어오기 d..
[Apache Spark] "Python3" 명령어 실행 불가로 인한 오류 코드 실행 도중에, 특정 Spark 액션에 대해서 다음과 같은 메세지와 함께 실행이 종료되는 오류가 있었다. [에러 메세지] py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0) (DESKTOP-642PDKR.mshome.net executor driver): jav..
[Apache Spark] 로컬 환경에서 Apache Spark 설치하기 로컬 환경에서 단일 클러스터로 Apache Spark를 설치하기 위해서는 1. JDK 설치 2. Python 설치 3. Apache Spark 설치 4. Hadoop Winutil 설치 5. 시스템 환경변수 설정 이렇게 총 5단계를 거쳐야 한다. 1. JDK 설치 Apache Spark는 Scala로 구현되어 있고 JVM 위에서 동작하기 때문에 Java를 먼저 설치해주어야 한다. 본인의 경우, 원래 Java 17 환경이 세팅되어 있었는데 version 때문인지 Spark 실행이 되지 않아 11.0.18로 재설치 해주었다. Download the Latest Java LTS Free Subscribe to Java SE and get the most comprehensive Java support avai..