본문 바로가기

Python

(47)
파이썬_특정값이 포함된 칼럼을 찾아 row 제거하기 (drop if) # list형으로 여러개 값 찾아서 제거한다. df[~df['STYLE'].isin(['110C', '406F','ES342','ES818','M08','694M','710','289F','404M','474F','ES341','ES811','405','M35','P780' '812','P781'])]
파이썬_파일 불러올 때 첫 행 제거하기 read_excel,read_csv #정답 import pandas as pd year19=pd.read_excel('D:\\account\\_PH_\\python\\2019년선적량.xls',skiprows=[0]) year19.head() * 아래는 오답 또는 참고할 방법
파이썬_top3 아이템에 대한 월별 판매량 추이 #Top 3 판매 제품 top_selling=retail.groupby('StockCode').sum()['Quantity'].sort_values(ascending=False)[:3] top_selling #top3 아이템에 대한 월별 판매량 추이 monthly_top3=retail.set_index('InvoiceDate').groupby(['StockCode',extract_month]).sum()[['Quantity','CheckoutPrice']].loc[top_selling.index] monthly_top3
파이썬_X축 눈금값 바꾸기(data visualisation) # 위의 그래프는 월요일=0 ~일요일=6으로 표시된 그래프이다. X축 눈금을 Mon, Tue~와 같이 변형하고자 한다. # 넘파이 배열 생성 Day_week=np.array(['Mon','Tue','Wed','Thu','Fri','Sat','Sun']) Day_week #'rev_by_dow'라는 dataframe의 index를 요일로 바꿀 차례다. # 위에서 생성한 배열의 index를 대입시켜준다. rev_by_dow.index=Day_week[rev_by_dow.index] plot_bar(rev_by_dow,'DOW','Revenue','Revenue by Day of Week') # rev_by_dow의 index는 원래 아래와 같이 숫자 형태였는데, Day_week 넘파이배열에 대입시키면 숫자 ..
파이썬_lambda 함수로 요일, 시간 불러오기 # 람다함수는 간단한 연산/수식/함수를 만들기 위해 사용한다. x를 주면 x**2를 반환해줘 라는 뜻. g = lambda x: x**2 g(8) ## 결과값 : 64 # date를 주면 date중 day of week를 반환해줘. 이미 pd.to_datetime 함수를 통해 날짜/시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾸었기 때문에 사용가능하다. rev_by_dow=retail.set_index('InvoiceDate').groupby(lambda date:date.dayofweek).sum()['CheckoutPrice'] rev_by_dow #0이 월요일, 5가 토요일, 6이 일요일 # dt를 주면 dt 중 day of week를 반환해줘. 이미 pd.to_datetime 함..
파이썬_날짜별(date time) 데이터 분석 시 유의사항 #pd.to_datetime으로 변환해준 Invoice Date 칼럼을 index로 보내놓고 groupby+연산 시행 #grouping하기 위해서 해당 변수를 우선 index로 만들기 rev_by_month=retail.set_index('InvoiceDate').groupby(extract_month).sum()['CheckoutPrice'] rev_by_month rev_by_dow=retail.set_index('InvoiceDate').groupby(lambda date:date.dayofweek).sum()['CheckoutPrice'] rev_by_dow #0이 월요일, 5가 토요일, 6이 일요일
파이썬_글자수 맞추기+ 빈자리 0으로 채우기 (월단위) #1번과 2번 모두 같은 결과값 반환. 1월~9월의 경우 01월, 02월 같은 포맷으로 변환됨. def extract_month(date): month = str(date.month) if date.month
파이썬_데이터 시각화(bar graph, pie chart) import seaborn as sns COLORS = sns.color_palette() %matplotlib inline plot=rev_by_countries.plot(kind='bar',figsize=(20,3)) plot.set_xlabel('Country',fontsize=11) plot.set_ylabel('Revenue',fontsize=11) plot.set_title('Revenue by Country', fontsize=13) plot.set_xticklabels(labels=rev_by_countries.index, rotation=45) plot=(rev_by_countries/total_revenue).plot(kind='pie',figsize=(20,10))
파이썬_groupby 사용하여 칼럼필터링 후 연산하기 # 1번 칼럼 필터링 후 2번 칼럼의 연산값 계산 rev_by_countries=retail.groupby('Country').sum()['CheckoutPrice'].sort_values()
파이썬_날짜 데이터타입 변경(to_datetime 꿀팁) # infer_datetime_format=True를 사용하면 년,월,일,시,분,초 자동으로 인식해서 데이터타입 변경 가능 retail['InvoiceDate']=pd.to_datetime(retail['InvoiceDate'],infer_datetime_format=True)