- Data Engineering [airflow] Docker에서 airflow 환경 설정 및 실행하기 이번 포스팅에서는 Docker-compose를 활용하여 apache airflow를 실행하는 방법을 다룬다. 본 포스팅은 airflow 공식 document의 "Running airflow in Docker"를 참고하였으며 하단의 링크를 통해서 해당 문서로 이동할 수 있다. Running Airflow in Docker — Airflow Documentation airflow.apache.org Before You Begin (필수 도구 설치) 설치 이전에 airflow 이미지를 실행하기 위한 Docker와 Docker-compose의 설치 or 업데이트가 필요하다. Install on Windows docs.docker.com 본인은 Windows의 환경에서 설치를 진행하였으므로 위 링크를 통해서 Do..
- Data Engineering [Apache Spark] 로컬 환경에서 Apache Spark 설치하기 로컬 환경에서 단일 클러스터로 Apache Spark를 설치하기 위해서는 1. JDK 설치 2. Python 설치 3. Apache Spark 설치 4. Hadoop Winutil 설치 5. 시스템 환경변수 설정 이렇게 총 5단계를 거쳐야 한다. 1. JDK 설치 Apache Spark는 Scala로 구현되어 있고 JVM 위에서 동작하기 때문에 Java를 먼저 설치해주어야 한다. 본인의 경우, 원래 Java 17 환경이 세팅되어 있었는데 version 때문인지 Spark 실행이 되지 않아 11.0.18로 재설치 해주었다. Download the Latest Java LTS Free Subscribe to Java SE and get the most comprehensive Java support avai..
- Data Engineering [Apache Spark] Dataframe의 Schema 지정하기 Pyspark에서 Header가 존재하지 않는 csv 파일을 Dataframe으로 불러올 때에 Schema를 지정하는 방법은 다음과 같습니다. 1. StructType을 이용하여 Schema를 정의하고, 이를 적용하는 방법 from pyspark.sql.types import StructType, StructField, StringType, IntegerType # 스키마 정의 schema = StructType([ StructField("column1", StringType(), True), StructField("column2", IntegerType(), True), StructField("column3", StringType(), True) ]) # CSV 파일을 DataFrame으로 읽어오기 d..
- Data Engineering [데이터 파이프라인 핵심 가이드] 2. 최신 데이터 인프라 ▽ 1장 데이터 파이프라인 소개는 이전 포스팅을 참고해주세요 ▽ [데이터 파이프라인 핵심 가이드] 1. 데이터 파이프라인 소개 본 포스팅은 위키북스 사의 "데이터 파이프라인 핵심 가이드"의 내용을 정리한 글입니다. 1. 데이터 파이프라인 소개 1 - 1. 데이터 파이프라인이란? 데이터 파이프라인은 다양한 소스에서 새로운 it-is-my-life.tistory.com 2. 최신 데이터 인프라 이 장에서는 파이프라인을 구축하기 위한 제품과 설계를 결정하기 전에 최신 데이터 인프라를 구성하는 주요 구성 요소에 대한 설명이 등장한다. 2 - 1. 데이터 소스의 다양성 대부분의 조직에는 분석 작업의 수행 대상이 되는 수십개에서 수백개의 데이터 소스가 존재한다. 데이터 소스들은 여러 차원으로 구분될 수 있다. 소스..
- 소프트웨어 마에스트로 데뷔 전 개발자의 소프트웨어 마에스트로 합격기 (3) - 브론즈지만 프로 데뷔가 하고 싶어요.. ▷ 자기소개서에 대한 내용은 이전 포스팅을 참고해주세요 ◁ 데뷔 전 개발자의 소프트웨어 마에스트로 합격기 (2) - 자기소개서는 어려워.. (feat 자소서 내용 ▷ 이전 포스팅도 같이 보시면 더 좋아요 ◁ 데뷔 전 개발자의 소프트웨어 마에스트로 합격기 (1) - 소마 연수생이 되고 싶었던 이유 2년 만에 블로그를 다시 시작해보려고 한다ㅎㅎ 이유는 여러 it-is-my-life.tistory.com 코딩테스트 문제는 공개할 수가 없기 때문에 문제 복기와 풀이보단 알고리즘 초보였던 내가 코테를 준비해나갔던 과정에 대해서 포스팅하려고 한다. 나같은 왕왕초보도 해냈으니 이 글을 보고있는 여러분도 해낼 수 있다!! 자기소개서는 완료했고 이제 남은건 코딩테스트다 코딩테스트란 무엇인가.. CS 지식과 쌍벽을 이루는..