반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- KNeighborsClassifier
- web
- 재귀함수
- CES 2O21 참가
- 데이터전문기관
- cudnn
- 웹 용어
- web 개발
- Keras
- web 용어
- vscode
- 대이터
- paragraph
- bccard
- 결합전문기관
- C언어
- pycharm
- CES 2O21 참여
- java역사
- 자료구조
- discrete_scatter
- web 사진
- html
- tensorflow
- postorder
- 머신러닝
- inorder
- classification
- mglearn
- broscoding
Archives
- Today
- Total
bro's coding
sklearn.TfidfVectorizer(tokenizer=twitter_tag.morphs).LogisticRegression 본문
[AI]/python.sklearn
sklearn.TfidfVectorizer(tokenizer=twitter_tag.morphs).LogisticRegression
givemebro 2020. 4. 29. 12:47반응형
from konlpy.tag import Twitter, Okt
from sklearn.feature_extraction.text import TfidfVectorizer
# data 준비
tfidf=TfidfVectorizer(tokenizer=twitter_tag.morphs,min_df=3)
X_train=tfidf.fit_transform(text_train)
X_test=tfidf.transform(text_test)
# model
from sklearn.linear_model import LogisticRegression
model=LogisticRegression()
model.fit(X_train,y_train)
model.score(X_test,y_test)
# 가중치
w=model.coef_[0]
# 가중치가 작은 순의 index (20개)
small=np.argsort(w)[:20]
# 가중치가 큰 순의 index (20개)
big=np.argsort(w)[-20:]
# small+big
small_big=np.r_[small,big]
# small_big에 대한 단어 찾기
fn=np.array(tfidf.get_feature_names())
small_big_name=fn[small_big]
import matplotlib.pyplot as plt
# 한국어 적용
from matplotlib import font_manager, rc
font_name=font_manager.FontProperties(fname="C:/Windows/Fonts/HMFMPYUN.TTF").get_name()
rc('font',family=font_name)
# visualization
plt.figure(figsize=[20,20])
plt.bar(range(40),w[small_big])
plt.xticks(range(40),small_big_name,rotation=90)
pass
반응형
'[AI] > python.sklearn' 카테고리의 다른 글
활성함수를 사용하는 이유 (0) | 2020.07.03 |
---|---|
sklearn.decomposition.LatentDirichletAllocation (0) | 2020.04.28 |
sklearn.feature_extraction.text.CountVectorizer.ngram.LogisticRegression.2단어들만 출력 (0) | 2020.04.28 |
sklearn.feature_extraction.text.CountVectorizer.ngram_range적용 (0) | 2020.04.28 |
sklearn.feature_extraction.text.TfidfTransformer.LogisticRegression적용 (0) | 2020.04.28 |
sklearn.feature_extraction.text.TfidfTransformer (0) | 2020.04.28 |
sklearn.feature_extraction.text.CountVectorizer.stop_words적용 (0) | 2020.04.28 |
sklearn.feature_extraction.text.CountVectorizer.max_df변화 관찰 (0) | 2020.04.28 |
Comments