본문 바로가기

데이터분석3

(pyspark+jupyterlab) Ubuntu내 분석 환경 설정 ubuntu 20.04 (multipass) python 3.8.9 pyspark 3.3 wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz Ubuntu 가상환경 셋팅 multipass launch -c 2 -m 2G --name machine focal Pyspark 다운로드 spakr 바이너리 파일을 다운로드 받는다. 여기엔 pyspark를 구동하는 라이브러리들이 모두 모아져 있다. https://www.apache.org/dyn/closer.lua/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz wget https://dlcdn.apache.org/spark/spark-3.3.1/s.. 2022. 12. 3.
딥러닝 코드 모음 Classification 데이터 조건 - 결측치가 없어야 한다. - 범주형 변수는 one-hot encoding을 적용해야 한다. - 예측값은 수치형으로 변환해야 한다. from random import shuffle x1 = list(range(0,100)) x2 = list(range(100,200)) y = [0,1] * 50 shuffle(x1) shuffle(x2) shuffle(y) import pandas as pd df = pd.DataFrame( {'x1':x1, 'x2':x2, 'y':y} ) // df x1x2y 0391170 1951101 2751830 381940 4871041 ............ 95991011 96221261 97591460 98291731 99201220.. 2021. 8. 20.
Pandas API python 3 pandas 1.1.5 numpy 1.19.5 - pandas는 파이썬 라이브러리로, DataFrame 이라는 자료 객체를 이용한 여러가지 데이터 처리 및 분석 API를 제공한다. # DataFrame 생성 1 . Numpy Array -> DataFrame import numpy as np import pandas as pd lis = [ [1,2,3], [4,5,6], [7,8,9] ] arr = np.array(lis) # 2 차원 array df = pd.DataFrame(arr) # lis를 넣어도 동일한 결과를 얻음 // df 012 0123 1456 2789 - column / index 추가 import numpy as np import pandas as pd lis = [.. 2021. 8. 18.