PYTHON2 (pyspark+jupyterlab) Ubuntu내 분석 환경 설정 ubuntu 20.04 (multipass) python 3.8.9 pyspark 3.3 wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz Ubuntu 가상환경 셋팅 multipass launch -c 2 -m 2G --name machine focal Pyspark 다운로드 spakr 바이너리 파일을 다운로드 받는다. 여기엔 pyspark를 구동하는 라이브러리들이 모두 모아져 있다. https://www.apache.org/dyn/closer.lua/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz wget https://dlcdn.apache.org/spark/spark-3.3.1/s.. 2022. 12. 3. [Python] Child process 생성 작업 간에 별도의 프로세스를 만들어서 작업을 처리해야할 때가 있다. 가장 흔하게는 controller 역할을 하는 어플리케이션에서 worker 혹은 executor 등의 작업 주체를 만드는 경우가 있다. Airflow에서 Celery worker를 사용할 때가 그렇다. airflow는 worker들을 데몬으로 미리 띄워놓는게 아니라 작업이 수행되는 때에 필요에 따라 worker process를 띄워서 사용한다. 이번 포스트에서는 간략하게 python으로 child process를 띄우는 코드를 소개한다. import os print(f'Current PID : {os.getpid()}') pid = os.fork() if pid > 0: _, ret = os.waitpid(pid, 0) print("Pa.. 2022. 12. 3. 이전 1 다음