일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- java역사
- html
- cudnn
- inorder
- web 사진
- discrete_scatter
- classification
- 웹 용어
- mglearn
- 머신러닝
- pycharm
- 대이터
- 결합전문기관
- paragraph
- web 용어
- postorder
- broscoding
- CES 2O21 참가
- C언어
- 자료구조
- Keras
- KNeighborsClassifier
- bccard
- vscode
- tensorflow
- web 개발
- CES 2O21 참여
- 재귀함수
- 데이터전문기관
- web
- Today
- Total
목록[INTURNSHIP] (12)
bro's coding
fastText는 facebook에서 개발한 model입니다. 메커니즘 자체는 Word2Vec와 동일해 Word2Vec의 확장형이라고 보시면 됩니다. Word2Vec는 단어를 더 이상 나눌 수 없는 원소로 본다면, fastText는 하나의 단어 안에도 여러 단어들이 존재하는 것으로 간주합니다. 즉, sub-word를 고려해 학습합니다. fastText는 context independent하다는 단점이 있습니다. context independen는 Sentence들 간의 관계를 알지 못한다는 의미입니다.
Glove는 co-occurrence가 있다면 그 정보를 알 수 있습니다. Glove는 global matrix factorization (전역 행렬)분해와 local(국소, 국지)문맥 window를 이용합니다. Global matrix factorization(전역 행렬 분해)는 NLP(자연어 처리)분야에서 거대한 단어-빈도 행렬에서 rank(계수)를 reduction하기 위해 선형대수의 행렬 분해법을 이용하는 방법입니다. 행렬들은 일반적으로 단어-문서 빈도를 표현하고, 행은 단어 / 열은 문서(혹은 단락)를 나타냅니다. 단어-문서 빈도 행렬에 적용되는 global matrix factorization은 흔히 latent semantic analysis(LSA)라고 합니다. LSA는 고차원 행렬을 si..
Word2vec는 2개의 옵션이 있습니다. CBOW는 주변단어를 통해 중심단어를 예측하는 것입니다. SKIP-GRAM은 중심단어를 통해 주변단어를 예측하는 것입니다. Word2vec는 사용자가 지정한 윈도우 내에서만 학습/분석이 이뤄지기 때문에 말뭉치 전체의 공기정보(co-occurrence)는 반영되기 어려운 단점이 있습니다. 여기서 윈도우는 주변 단어를 몇 개까지 볼지 설정한 크기를 의미합니다.
PyQt5 Tutorial - 파이썬으로 만드는 나만의 GUI 프로그램 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net PyQt5 Reference Guide — PyQt v5.15.2 Reference Guide www.riverbankcomputing.com Graphical User Interfaces (GUI) pythonspot.com PyQt5 tutorial - learn GUI programming with Python and PyQt5 PyQt5 tutorial last modified August 14, 2020 This is PyQt5 tutorial. The tutorial is suited for beginners and intermediate progra..
사회과학 분야에서 정성적 데이터 분석에 이용되는 SW
Neural net language model - 주어진 문서에서 단어 w가 Context(c)의 단어 결합확률이 최대가 되도록 단어 w의 vector값을 학습 ex) "아주대학교는 기업이 요구하는 질 좋은 아주대생을 배출한다" "아주대학교"와 "아주대생"이 비슷한 vector값을 가지도록한다. - 단어의 순서가 근접하여 자주 출현할 수록 두 단어의 vector값이 유사하도록 학습하는 것이 목적
2003년 : Bengio -> 2013년 : Mikolov(google) 정확도 향상 / 성능 향상(Skip-gram) : acc가 약 2배 좋아짐 빠른 훈련(최적화 기술) : train 7일 -> 2일