이전다음 Data Engineering [Apache Spark] 로컬 환경에서 Apache Spark 설치하기 더보기 Data Engineering [airflow] Docker에서 airflow 환경 설정 및 실행하기 더보기 IBM C:LOUDERs 클라우드는 처음이라 (1) - 도커는 뭐고 쿠버네티스는 또 뭐야? 더보기 CS [python] time.sleep을 잘 써야하는 이유 더보기 Data Engineering [Apache Spark] Dataframe의 Schema 지정하기 더보기 CS [python] time.sleep을 잘 써야하는 이유 알고리즘 & 자료구조 [백준] 2156 - 포도주 시식 알고리즘 & 자료구조 [백준] 2193 - 이친수 알고리즘 & 자료구조 [백준] 10844 - 쉬운 계단수 알고리즘 & 자료구조 [백준] 9095 - 1, 2, 3 더하기 알고리즘 & 자료구조 [백준] 11727 - 2xn 타일링 2 알고리즘 & 자료구조 [백준] 11726 - 2xn 타일링 알고리즘 & 자료구조 [백준] 1463 - 1로 만들기 Data Engineering [Apache Spark] 로컬 환경에서 Apache Spark 설치하기 로컬 환경에서 단일 클러스터로 Apache Spark를 설치하기 위해서는 1. JDK 설치 2. Python 설치 3. Apache Spark 설치 4. Hadoop Winutil 설치 5. 시스템 환경변수 설정 이렇게 총 5단계를 거쳐야 한다. 1. JDK 설치 Apache Spark는 Scala로 구현되어 있고 JVM 위에서 동작하기 때문에 Java를 먼저 설치해주어야 한다. 본인의 경우, 원래 Java 17 환경이 세팅되어 있었는데 version 때문인지 Spark 실행이 되지 않아 11.0.18로 재설치 해주었다. Download the Latest Java LTS Free Subscribe to Java SE and get the most comprehensive Java support avai.. Data Engineering [airflow] Docker에서 airflow 환경 설정 및 실행하기 이번 포스팅에서는 Docker-compose를 활용하여 apache airflow를 실행하는 방법을 다룬다. 본 포스팅은 airflow 공식 document의 "Running airflow in Docker"를 참고하였으며 하단의 링크를 통해서 해당 문서로 이동할 수 있다. Running Airflow in Docker — Airflow Documentation airflow.apache.org Before You Begin (필수 도구 설치) 설치 이전에 airflow 이미지를 실행하기 위한 Docker와 Docker-compose의 설치 or 업데이트가 필요하다. Install on Windows docs.docker.com 본인은 Windows의 환경에서 설치를 진행하였으므로 위 링크를 통해서 Do.. IBM C:LOUDERs 클라우드는 처음이라 (1) - 도커는 뭐고 쿠버네티스는 또 뭐야? IBM C:LOUDERs 활동을 하면서 '세상은 넓고 능력자들은 많구나'라는 생각을 정말 많이 한다ㅋㅋ IBM C:LOUDERs를 통해 클라우드 컴퓨팅을 처음 접하는 나로서는 따라가기가 벅찬 게 사실이다. 그러다가 문득 이런 생각을 했다. '이런 고민을 나만 할까?' 분명 클라우드 컴퓨팅을 처음 접하고 구글링의 세계를 허우적대는 나같은 사람이 있지 않을까?그래서 시작한다! 클라우드는 처음이라 시리즈! IBM Cloud Essentials 코스를 수강하면서 공부한 내용을 입문자의 시선에서 정리해보려고 한다. 오늘의 내용은 하이브리드 클라우드와 멀티 클라우드.. 일 뻔했으나 강의를 보다 보니 생소한 용어가 많았다. 강연자 분은 당연한 듯이 넘어갔지만ㅠㅠ 나는 뜻을 몰라 구글링 또 구글링 하며 4분짜리 영상을.. CS [python] time.sleep을 잘 써야하는 이유 오늘은 파이썬에서 많이 쓰는 time.sleep에 대해서 알아보려고 한다이유는.. 회사에서 내가 저걸 막 쓰다가 코드를 다시 짰기 때문에.. ㅎㅎ 우선구현 상황은 이랬다이렇게 deque 내에 데이터들이 담겨있고, 각 데이터에는 timestamp가 존재한다이 데이터들을 rabbitmq에 각 timestamp 간격에 맞춰서 쏴줘야 하는데, 이걸 구현하기 위해서 나는 데이터를 하나 쏜 후에 다음 데이터까지의 timestamp 간격만큼 time.sleep을 집어넣었다그런데 코드를 다 짜고 테스트를 해보니까 실제로 sleep한 시간이 timestamp 간의 간격보다길어서 데이터들 간의 싱크가 맞지 않는 것이 아닌가?회사에서 다루는 대부분의 데이터가 실시간 데이터였기에 데이터 싱크가 맞지 않는 문제는 허용할 수 있.. Data Engineering [Apache Spark] Dataframe의 Schema 지정하기 Pyspark에서 Header가 존재하지 않는 csv 파일을 Dataframe으로 불러올 때에 Schema를 지정하는 방법은 다음과 같습니다. 1. StructType을 이용하여 Schema를 정의하고, 이를 적용하는 방법 from pyspark.sql.types import StructType, StructField, StringType, IntegerType # 스키마 정의 schema = StructType([ StructField("column1", StringType(), True), StructField("column2", IntegerType(), True), StructField("column3", StringType(), True) ]) # CSV 파일을 DataFrame으로 읽어오기 d..