새로운:개발 일지/Word2Vec를 이용한 연관 검색어 구현

이 문서 내용은 좀 낡았습니다.
60일이나 편집 안된 오래된 망한 문서니 개발 문서인 경우 참고할 때 조심하세요. 최신 정보를 알고 싶으면 게시판에 글 써주세요

깃허브 이슈

목차

1. 개요
2. 고민중인 사안
2.1. 데이터셋을 어디서 구할 것이냐?
2.1.1. 외부 데이터셋 이용
2.1.1.1. 적법한 절차로 데이터셋 구하기
2.1.2. 내부 데이터셋 이용
2.2. 저사양 시스템에서도 돌아가도록

1. 개요 _{✎ ⊖}

워드 투 벡터 기술을 이용해서 연관 검색어를 구현하려는 프로젝트이다.

2. 고민중인 사안 _{✎ ⊖}

2.1. 데이터셋을 어디서 구할 것이냐? _{✎ ⊖}

2.1.1. 외부 데이터셋 이용 _{✎ ⊖}

한국어 사이의 연관성을 보여주기 위해서는 한국어로 된 많은 문서가 필요하다 (예를 들면 위키백과 전체 데이터라던지)

하지만 오픈나무의 경우 BSD 라이선스를 적용하고 있으므로 아무거나 가져와서 적용해서 올리기는 어렵다

그러므로 적법한 절차를 통한 데이터셋을 구할 방법을 고민해봐야한다

게다 그 데이터셋을 이용해서 추론한 결과가 실제 위키 내부 문서로 존재하는 지도 검토해봐야한다

사실상 어렵지 않을까 싶다

2.1.1.1. 적법한 절차로 데이터셋 구하기 _{✎ ⊖}

이건 AI-Hub 같은 곳 이용하면 될 것 같다

2.1.2. 내부 데이터셋 이용 _{✎ ⊖}

위키 내부의 데이터만 이용한다면 이걸 이용해서 효율적인 결과가 정말 나오는 지 검증이 필요하다

근데 만약 만족스러운 결과가 나오지 못한다면 결국 프로젝트 자체를 엎고 재래식 알고리즘으로 짜야할 필요가 있다

2.2. 저사양 시스템에서도 돌아가도록 _{✎ ⊖}

결국 이건 학습을 통한 연관 검색어 구현이므로 새로운 문서가 들어오면 새로 학습 시킬 필요가 있다

이러한 과정이 저사양 시스템에서도 충분히 적당하게 굴러가는 지 검증이 필요하다

1. 개요 ✎ ⊖

2. 고민중인 사안 ✎ ⊖

2.1. 데이터셋을 어디서 구할 것이냐? ✎ ⊖

2.1.1. 외부 데이터셋 이용 ✎ ⊖

2.1.1.1. 적법한 절차로 데이터셋 구하기 ✎ ⊖

2.1.2. 내부 데이터셋 이용 ✎ ⊖

2.2. 저사양 시스템에서도 돌아가도록 ✎ ⊖