'2024/10/10 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/10 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2024/10/10 (2)

인일의 공부 블로그

Word2Vec

포스팅 개요https://wikidocs.net/22660 Word2Vec의 학습 방법에는 CBOW와 Skip-Gram 두가지가 있음. 목차1. 1번2. 2번3. 3번 🎈 1. 희소 표현- 원 핫 벡터 인코딩을 표현- 단어의 인덱스 값만 1으로 하고 나머지는 0으로 표현 🎈 2. 분산 표현- 분포 가설(distributional hypothesis)을 가정하고 만듦- 비슷한 문맥에서 등장한 단어들은 비슷한 의미를 가진다는 뜻 강아지의 인덱스가 4 라는 예시1. 원핫벡터Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0]2. 분산 표현Ex) 강아지 = [0.2 0.3 0.5 0.7 0.2 ... 중략 ... 0.2]- 단어의 의미를 여러 차원에 분산하여 표현-..

AI ML DL/머신러닝-딥러닝 2024. 10. 10. 12:28

텍스트 데이터 다루기

포스팅 개요아이펠 9기 Deep Dive 학습을 진행중입니다. NLP 코스로 학습 중 기록을 각색하여 블로그에 포스팅합니다.목차1. 1번2. 2번3. 3번4. 4번5. 5번🎈 1. 전처리- 자연어의 이상적인 데이터의 형태는 표준 어휘로 구성된 말- 하지만, 예외적으로 변형 (표준 어휘가 아닌 형태)된 경우가 더 많음e.g.) 불완전한 문장, 문장 길이가 너무 길거나 짧음, 채팅 데이터 에서 문장 시간 간격이 긺, 욕설 오타 등이 포함⇒ 아직은 이러한 어휘를 고려하여 학습을 진행해야 함(* 자연어 처리의 이상치는 아주 큰 규모의 학습을 진행하여 이러한 이상치들을 제외 할 수 있도록 학습시키는 것)> 노이즈 유형별 처리1. 문장 부호- 컴퓨터는 명시해주지 않으면 (띄어쓰기로 구분하지 않으면) 알파벳에 ,가..

AI ML DL/NLP 2024. 10. 10. 11:16

이전 Prev 1 Next 다음

목록2024/10/10 (2)

인일의 공부 블로그

티스토리툴바