본문 바로가기

Python

(47)
파이썬_데이터타입 변경 # 데이터타입 변경 *** df.astype(int) 또는 df.astype(np.int32) retail['CustomerID']=retail['CustomerID'].astype(int) #도 가능하지만 64bit로 출력될 가능성도 있다. retail['CustomerID']=retail['CustomerID'].astype(np.int32) # int32로 지정해주면 메모리용량을 줄일 수 있다.(데이터효율화 측면에서 좋음)
파이썬_0 이상 값만 추출 # 0이상 값이 포함된 row만 추출 retail=retail[retail['Quantity']>0] retail=retail[retail['UnitPrice']>0]
파이썬_null값 제거 # null값 제거한 row만 추출한 dataframe retail=retail[pd.notnull(retail['CustomerID'])]
파이썬_분류예측모델, 교차검증 분류예측 # DecisionTree from sklearn.tree import DecisionTreeClassifier dt_clf = DecisionTreeClassifier(random_state=11) dt_clf.fit(X_train, y_train) dt_pred = dt_clf.predict(X_test) # RandomForest from sklearn.ensemble import rf_clf=RandomForestClassifier(random_state=11) rf_clf.fit(X_train, y_train) rf_pred = rf_clf.predict(X_test) # LogisticRegression from sklearn.linear_model import LogisticRegr..
파이썬_장바구니 목록에서 여러가지 아이템 필터 처리 # 목표 : 장바구니 목록에서 여러가지 아이템 필터 처리 # 결론 : 필터링 된 데이터 프레임명 = 장바구니.loc[장바구니['Item'].isin(['사과','오렌지','포도'])] import pandas as pd import numpy as np ncolor=pd.read_excel('D:\\account\\_PH_\\email\\Randy_WIP_09142020.xlsx') ncolor.head() yes=ncolor.loc[ncolor['Item Number'].isin(['404M.48P.L/XL','404M.48P.S/M','404M.48P.XS', '404M.059.L/XL','404M.059.S/M','404M.059.XS', '404M.098.L/XL','404M.098.S/M','4..
파이썬_loc으로 특정조건을 가진 칼럼의 데이터 변경 traindf4.loc[traindf4['Embarked']=='S', 'Embarked'] = 1 traindf4.loc[traindf4['Embarked']=='C', 'Embarked'] = 2 traindf4.loc[traindf4['Embarked']=='Q', 'Embarked'] = 3 traindf4.head() Embarked 칼럼이 S라는 데이터를 가지고 있을 때, Embarked 칼럼의 데이터는 1로 바꿔줘 Embarked 칼럼이 C라는 데이터를 가지고 있을 때, Embarked 칼럼의 데이터는 2로 바꿔줘 Embarked 칼럼이 Q라는 데이터를 가지고 있을 때, Embarked 칼럼의 데이터는 3로 바꿔줘 변경전 변경후
파이썬_for loop 두가지 이상의 for 조건 설정 import seaborn as sns plt.figure(figsize=[15,9]) index=['Pclass', 'Sex', 'Age', 'SibSp','Parch','Ticket','Fare','Cabin', 'Embarked'] for i,n in zip(range(1,10,1),index): plt.subplot(3,3,i) sns.barplot(n,'Survived',data=train) plt.show 첫번째 조건 : i에 1부터 10까지의 정수를 차례대로 넣어줘 두번째 조건 : n에 index리스트에 있는 문자를 차례대로 넣어줘 조건들은 zip으로 묶어서 넣어준다. 이렇게 길었던 코드가 단순해진다.
파이썬_데이터 전처리 (Encoding) Data Preprocessing, GET DUMMIES, ONE HOT ENCODING, LABEL ENCODING In [1]: ###LABEL ENCODING### from sklearn.preprocessing import LabelEncoder items=['냉장고','전자레인지','컴퓨터','선풍기','믹서','믹서'] encoder=LabelEncoder() encoder.fit(items) labels=encoder.transform(items) print(labels) [0 3 4 2 1 1] In [2]: print(encoder.classes_) ['냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터'] In [8]: ###ONE-HOT ENCODING### from sklearn.preprocessing import OneHotEncoder import numpy as np items=['냉장고',..
파이썬_회귀분석의 성능평가 회귀분석 성능평가척도 대표 5개 1. Mean Absolute Error (MAE) 2. Mean Square Error (MSE) 3. Root Mean Square Error (RMSE) 4. Mean Absolute Percentage Error (MAPE) 5. Mean Percentage Error (MPE) #요약 : 성능평가척도로 계산된 절대적인 수치의 의미는 크지 않다. 회귀분석모델을 여러가지 만들어보면서 그 중 가장 성능이 좋은 모델이 찾기 위해 쓰인다. 1. Mean Absolute Error (MAE) = 평균절대오차. 절대 오차(실제 값과 예측값 차이)의 평균. = 이 수치만으로 예측을 잘했는지 못했는지 알 수는 없지만, 가장 직관적이고 쉬운 해석이 가능하다. (예시) Y값이 0부터..
파이썬_특정 칼럼의 결측치를 문자로 대체 #목표 : 파이썬_특정 칼럼의 결측치를 문자로 대체 #결론 : data["칼럼명"].fillna("넣고 싶은 문자", inplace = True) - 오답 결과: data["칼럼명"].fillna("넣고 싶은 문자") - 정답 결과: data["칼럼명"].fillna("넣고 싶은 문자", inplace = True)