본문 바로가기

Project

(5)
[DACON] 잡케어 추천 알고리즘 Part3 5. Experiment1 : Categorcal / Ordinal Value Simple / Complex Value 로 나눈 후 예측값들로 새로운 DataSet from sklearn.model_selection import KFold, cross_val_score from sklearn.model_selection import GridSearchCV, train_test_split from sklearn.preprocessing import OneHotEncoder, LabelEncoder import pandas as pd complex_lst=[8, 9, 10, 13, 14, 15, 22, 23, 25] x = train.iloc[:, :-1] y = train.iloc[:, -1] x.appl..
[Project] E2E_OCR Model Architecture 보호되어 있는 글입니다.
[CODE] data image , annotation 형식 맞추기 def main(db_fname): print('START!') db = h5py.File(db_fname, 'r') dsets = sorted(db['data'].keys()) print ("total number of images : ", colorize(Color.RED, len(dsets), highlight=True)) print() for num ,k in enumerate(dsets): #add txt f = open('{}/gt_img_{}.txt'.format(GT_PATH,num),'w') rgb = db['data'][k][...] charBB = db['data'][k].attrs['charBB'] wordBB = db['data'][k].attrs['wordBB'] txt = db..
[CODE] SynthText - Korean ver 응용 https://arxiv.org/pdf/1604.06646.pdf https://github.com/ankush-me/SynthText 조작 간편할 것이라 생각됨 1. 투명도 너무 높거나 지나치게 잘려있는 등 육안으로도 알아보기 힘든 변형 존재 투명도 colorize3_poisson.py op = 0.50 + 0.1*np.random.randn() 2. 여러 줄로 나오는경우 -> 한번에 /n으로 묶어서 처리 (bbox도 마찬가지로 함께 처리) text_utils.py def get_nline_nchar nline = 1 3. 글씨 잘려서 나오는 경우 pygame ver 1.9.6으로 변경 -> 해결 4. 글씨체 제한적 fontlist.txt.에 추가 5. output style 현재 프로젝트에서 기준으로..
[DACON] 잡케어 추천 알고리즘 Part2 [ Model ] 1. HGB 2. XGB 4. Model 4.1 HGBoost 순서형과 명목형 변수가 섞여있는 데이터 셋. Q. 이 사실을 어떻게 모델에게 전달해줄 것인가? A1. one-hot encoding? 데이터셋에서 순서형보다 명목형이 훨씬 많음. H_속성 등은 1000이상까지 넘어감. → 차원 증폭 + 트리계열 모델에선 숫자의 차이가 모델에 영향을 주지 않음 (i.e. label encoding으로도 충분) A2. categorical_features = https://scikit-learn.org/stable/modules/ensemble.html#categorical-support-gbdt 1.11. Ensemble methods The goal of ensemble methods is ..