본문 바로가기

Python

(47)
파이썬_칼럼 내 문자열 분할 (5번째부터 9번째까지만 끊어 저장) # 방법 biz_data_cross['LPN1']=biz_data_cross['LPN#'].str[0:5] biz_data_cross['LPN2']=biz_data_cross['LPN#'].str[5:8] biz_data_cross['LPN3']=biz_data_cross['LPN#'].str[8:11] biz_data_cross['LPN4']=biz_data_cross['LPN#'].str[11] sample=biz_data_cross[['LPN#','LPN1','LPN2','LPN3','LPN4']] sample.head() # 최종 결과물
파이썬_여러 칼럼의 데이터를 한 칼럼으로 붙여넣기 (엑셀 &기능) # 해결방법: 각 칼럼의 값을 리스트로 만든 후 - 리스트 내 객체를 str 타입 변환 후 이어붙이기 data['ITEM#'] = pd.Series(data[['STYLE','COL','SIZE']].fillna('').values.tolist()).str.join('.') data[['STYLE','COL','SIZE','ITEM#']] # 결론: # 추가 설명: 리스트로 변환된 후의 결과는 아래와 같다. data['ITEM#'] = pd.Series(data[['STYLE','COL','SIZE']].fillna('').values.tolist()) data['ITEM#']
파이썬_리스트에 포함된/포함되지 않은 데이터만 추출 (필터링) 1. 판매날짜 칼럼이 9/20 ,10/20 둘 중 하나에 해당되는 데이터만 출력 mask= data['판매날짜'].isin(['2020-09-20','2020-10-20']) 2. 판매날짜 칼럼이 9/20 ,10/20 두 개 모두 아닌 데이터만 출력 mask= data['판매날짜'].isin(['2020-09-20','2020-10-20']) data2=data[~mask]
파이썬_마크다운(제목) 추가 1. 입력 예시 문구 2. 마크다운으로 변경 3. 최종 출력물
파이썬_기하누적확률분포 데이터시각화 (연애 5회 안에 결혼하게 될 확률 분포) #연애 횟수 * 적어도 5회안에 결혼할 확률 from scipy.stats import geom rv = geom(p=0.05) #결혼 확률 0.05 대입 #rv=random variable=확률변수 rv.cdf(5) #X≤5 결과는 import matplotlib.pyplot as plt import numpy as np rv = geom(0.05) #p=독립시행의 성공확률 0.05, shift = 기하확률을 옮길수있는 loc인자 0 x = np.arange(1, 30+1) #총 시행횟수 30까지 cdf_geom = rv.cdf(x) fig = plt.figure() ax = fig.add_subplot(111) #"111" means "1x1 grid, first subplot" and "234" m..
파이썬_기하확률분포 데이터시각화 (연애 시작한 남녀가 결혼하게 될 확률 분포) #연애를 시작한 남녀가 결혼할 확률이 5%라고 가정할 때, 5번 사귄 이성과 결혼하게 될 확률분포 (기하분포 geometric distribution) from scipy.stats import geom rv = geom(p=0.05) #결혼 확률 0.05 대입 #rv=random variable=확률변수 rv.pmf(5) #k=총 시도횟수 5번 #결과는? #pmf=probability mass function 확률질량함수 #연애 횟수 1회~100회까지 import matplotlib.pyplot as plt import numpy as np rv = geom(0.05) #p=독립시행의 성공확률 0.05, shift = 기하확률을 옮길수있는 loc인자 0 x = np.arange(1, 100+1) #총 ..
파이썬_람다함수(lambda함수) 의미,사용법,활용예시 ■lambda 그때그때 임의로 만들어 사용하고 버리는 함수로, 주로 간단한 수학함수가 필요한 경우에 쓰인다. ■어떻게 쓰이는가 lambda 인자 : 표현식 lambda 변수명 : 수식 lambda x : 함수 lambda x , y : 함수 곧 x나 y를 (인자)를 알려줄껀데, 뒤에 공식(표현식)에 넣어줘 라는 뜻이다. ■활용 예시 ★ lambda x, y: x + y #기본적인 표현 ★ sample['두자리수 월 표현']=sample['한자리수 월 표현'].apply(lambda x:"{:0>2}".format(x)) ★ 구매비율=구매수량.apply(lambda x: x*100/sum(x), axis=1) #apply함수와 함께 쓰임.
파이썬_데이터 전처리 (Encoding) Data Preprocessing, GET DUMMIES #2 ■의미 머신러닝에서 문자로 된 데이터는 모델링이 되지 않는다. 회귀분석 또한 데이터가 숫자로 이루어져야 learn 가능하다. 문자를 숫자로 바꾸어 주는 방법 중 하나로 get dummies 함수가 있다. 더미변수(가변수,dummy variable)를 만들어, 각 열에 0과 1로 표현되는 방식이다. 1은 있다/맞다, 0은 없다/아니다를 나타낸다. ■표현식 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) pd.get_dummies(데이터프레임명,column=['칼럼명']) #특정칼럼만 처리할 경우 ■활용예시 ★ pd.get_dum..
파이썬_칼럼 이름들을 리스트로 받기 정답 : list(df)
파이썬_여러줄 주석(#,샵) 처리 # # # # 여러 줄에 주석(샵)처리를 하기 위해서는 해당 문구 스크롤 후에, ctrl +/ 키를 입력하면 된다.