본문 바로가기

Computer/ML·DL·NLP26

[이수안컴퓨터연구소] 토픽 모델링 Topic Modeling https://www.youtube.com/watch?v=Xt607xhpF6U https://colab.research.google.com/drive/1mIm9o41JOa-oFodaj0j26SjLx6y1xNVD?usp=sharing _6 토픽 모델링(Topic Modeling).ipynb Colaboratory notebook colab.research.google.com 토픽 모델링(Topic Modeling) 토픽 모델링은 문서 집합에서 주제를 찾아내기 위한 기술 토픽 모델링은 '특정 주제에 관한 문서에서는 특정 단어가 자주 등장할 것이다'라는 직관을 기반 예를 들어, 주제가 '개'인 문서에서는 개의 품종, 개의 특성을 나타내는 단어가 다른 문서에 비해 많이 등장 주로 사용되는 토픽 모델링 방법은 잠.. 2022. 1. 8.
[스크랩] XGBoost 뿌수기! https://blog.diyaml.com/teampost/XGBoost-%EB%BF%8C%EC%88%98%EA%B8%B0!/ XGBoost 뿌수기! XGBoost: A Scalable Tree Boosting System 논문의 요약을 담고 있습니다. blog.diyaml.com XGBoost: A Scalable Tree Boosting System 논문을 친절하게 요약한 글이라서 저장해둡니당.. 특히 split finding algorithms 부분이 도움이 많이 되었습니다(~ ̄▽ ̄)~ 다들 읽어보시길,, 2021. 10. 25.
[이수안컴퓨터연구소] 의미 연결망 분석 Semantic Network Analysis https://www.youtube.com/watch?v=jnoKa44OZv8 https://colab.research.google.com/drive/18az5ur4JDVwxJz9nQfLMylVJM1fG1iND?usp=sharing _5 의미 연결망 분석(Semantic Network Analysis).ipynb Colaboratory notebook colab.research.google.com 의미 연결망 분석(Semantic Network Analysis) 사회 연결망 분석(Social Network Analysis)는 분석 대상 및 분석 대상들간의 관계를 연결망 구조로 표현하고 이를 계량적으로 제시하는 분석 기법 사회 연결망 분석은 사람, 장소, 물품 등의 객체 간의 관계를 분석하는데 효과적이며 .. 2021. 8. 7.
[이수안컴퓨터연구소] 문서 분류 Document Classification https://www.youtube.com/watch?v=xegxbgsnYko&list=PL7ZVZgsnLwEEoHQAElEPg7l7T6nt25I3N&index=4 https://colab.research.google.com/drive/1NlSZKwocO_9Z6Tbw7X4v9YsISHAZfJlK?usp=sharing _4 문서 분류(Document Classification).ipynb Colaboratory notebook colab.research.google.com 데이터 준비 문서 분류에 필요한 데이터는 scikit-learn이 제공하는 20개의 주제를 가지는 뉴스그룹 데이터를 사용 텍스트는 CounterVectorizer를 거쳐 DTM 행렬로 변환 DTM 은 문서에 등장하는 단어들을 빈도 수 별.. 2021. 8. 7.
[이수안컴퓨터연구소] 군집 분석 Cluster Analysis https://www.youtube.com/watch?v=YJSHBQj8zbU&list=PL7ZVZgsnLwEEoHQAElEPg7l7T6nt25I3N&index=3 군집 분석(Cluster Analysis) 군집 분석은 데이터의 특성에 따라 유사한 것끼리 묶음 유사성을 기반으로 군집을 분류하고, 군집에 따라 유형별 특징을 분석하는 기법 텍스트에 대한 군집 분석에서는 군집으로 묶여진 텍스트들끼리는 최대한 유사하고, 다른 군집으로 묶여진 텍스트들과는 최대한 유사하지 않도록 분류 텍스트 유사도 텍스트 쌍에 대한 자카드 유사도와 코사인 유사도 계산 자카드 유사도(Jaccard Similarity): 두 텍스트 문서 사이에 공통된 용어의 수와 해당 텍스트에 존재하는 총 고유 용어 수의 비율을 사용 코사인 유사도(.. 2021. 8. 4.
[이수안컴퓨터연구소] 키워드 분석 Keyword Analysis https://www.youtube.com/watch?v=5P6nG8xHKbU&list=PL7ZVZgsnLwEEoHQAElEPg7l7T6nt25I3N&index=2 https://colab.research.google.com/drive/1HdLLGVY-59yc8nMVdFdKRXrepxqcNcAD?usp=sharing#scrollTo=pvUu6DwlNLm9 _2 키워드 분석(Keyword Analysis).ipynb Colaboratory notebook colab.research.google.com 키워드 분석 - 핵심어(keyword)란 텍스트 자료의 중요한 내용을 압축적으로 제시하는 단어 또는 문구 - 핵심어 분석이란 불용어 제거와 어간추출 및 형태소 분석 등의 자연어 처리를 시행한 후 텍스트에서 많.. 2021. 8. 4.