이 문서 내용은 좀 낡았습니다.
60일이나 편집 안된 오래된 망한 문서니 개발 문서인 경우 참고할 때 조심하세요. 최신 정보를 알고 싶으면 게시판에 글 써주세요
워드 투 벡터 기술을 이용해서 연관 검색어를 구현하려는 프로젝트이다.
2. 고민중인 사안 ✎ ⊖
2.1. 데이터셋을 어디서 구할 것이냐? ✎ ⊖
한국어 사이의 연관성을 보여주기 위해서는 한국어로 된 많은 문서가 필요하다 (예를 들면
위키백과 전체 데이터라던지)
하지만 오픈나무의 경우
BSD 라이선스를 적용하고 있으므로 아무거나 가져와서 적용해서 올리기는 어렵다
그러므로 적법한 절차를 통한 데이터셋을 구할 방법을 고민해봐야한다
게다 그 데이터셋을 이용해서 추론한 결과가 실제 위키 내부 문서로 존재하는 지도 검토해봐야한다
사실상 어렵지 않을까 싶다
위키 내부의 데이터만 이용한다면 이걸 이용해서 효율적인 결과가 정말 나오는 지 검증이 필요하다
근데 만약 만족스러운 결과가 나오지 못한다면 결국 프로젝트 자체를 엎고 재래식 알고리즘으로 짜야할 필요가 있다
2.2. 저사양 시스템에서도 돌아가도록 ✎ ⊖
결국 이건 학습을 통한 연관 검색어 구현이므로 새로운 문서가 들어오면 새로 학습 시킬 필요가 있다
이러한 과정이 저사양 시스템에서도 충분히 적당하게 굴러가는 지 검증이 필요하다