ClemensKim - kyj909

검색엔진 본문

IT/검색엔진

검색엔진

kyj909 2013. 4. 26. 05:59

음...우선 검색엔진에 대해 두서 없이 써볼까 해...

여기 블로그를 활성화 해보려고 별짓을 다하넹 ㅋㅋ 자 우선 예전 나의 블로그들을 찾아가보면 어딘가에 나와있을꺼야

네이년 ==> http://blog.naver.com/gross_crayk

이골로 ==>http://kyj909.egloos.com/

참 사람이란것이...내가 네이년에서 블로그를 하다 결별하게 된게 어이없는 정책때문에 안쓰게 되었지...난 지금 생각해도 화가남. 뭐가 그리 잘났다고  분명 언젠간 망할것이야...네이년! 네이년 네이년 내 기필코!!!!!!
암튼 각설하고, (이골로는 아직도 쓰고 있음 ㅋㅋ)

검색엔진 하면 두가지로 생각을 해야지 우선

내가 직접 검색엔진을 만들어서 쓸지, 아니면 검색엔진을 활용하는 것일지를 말이야.
포커스는 우선, 난 검색엔진을 직접 만들어서 쓸꺼야! 라고 한다면, 부터 시작할께

검색엔진 말 그대로 데이타를 수집하고 그 수집한 데이타를 가공을 잘해서 원하는 결과물을 얻어내야하지.
여기서 직접 검색엔진을 개발하는 방법이 있고 그렇지 않다면 만들어진 엔진(코어)을 가지고 구축할수 가 있어.
말그대로 직접 개발하려면 시간과 노력과 특별한 능력들이 요구되니 이건 패스~ 그래서 만들어진 엔진을 가지고 지지고 복고 하는방향으로.
일단 오픈소스들이 생각보다 굉장히 많아. 물론 그 엔진들을 어떻게 뽁아 먹는것은 전적으로 누구 탓이지.
대표적으로 몇가지 들어볼께, 루씬, 솔라, 스핑크스, Omini find (요건 요즘 어찌됐는지 잘 모르겠네... 나름 테스트했을때는 굉장히 좋았는데....), 그외 상용툴, 그리고 SQL 쪽에서 제공하는 fulltext 관련, 그리고 파일인덱싱엔진들이 있지 물론 자기 성향에 맞게 개발 구축하여 사용하면 되는데.. 난 아무거나 추천, 루씬도 요즘은 많이 좋아져서 원츄
근데 한국어 형태소 분석기를 만들어야하는거....참....거시기하지? 이것때문에 안보던

"한국어 형태소 분석과 정보검색" 까지 봤어..젠장..내가 언어영역이 너무 약해. 그래서 마눌님의 도움을 요청했지 그래도 국어선생이여서 그런지 따박 따박 잘 가르쳐 주더군.

뭐 요즘은 잘나온다는 소리들었으니 내가 했을때보다는 많이 좋아졌을꺼야.... 그런데 난 머리가 굳어서 그런지
편하고 쉬운게 좋다 라는 생각에 될수 있음 sql 을 활용한 fulltext 를 권장하고 싶어.
왜냐구? 아주 잘되거든. 예전에는 fulltext 가 아닌 ms에서 인덱스 서버가 있어서 그걸 활용해서 파일 인덱스 과정을 거쳐서 구현했었는데... 그때당시 굉장히 빨랐지..... 물론 대용량 과는 거리가 멀었어.... 1000만건 내외는 괜찮은데 그이상은 무리인거 같더라구...물론 지금 왠만한 중소기업에서 1000만건 이상 색인할일도 없을거라 보고.....
지금도 예전과 같이 구현해서 써도 무방할듯. 그런데 아까 잠깐 말했듯이 sql 에서 지원하는 fulltext 이거 물건이야...
지금도 검색엔진으로 내가 쓰고 있거든.... 규모는 지금은 100만건정도 되는 html 데이타들이고, 나름 굉장히 성능이 좋더라구, 잘은 모르겠지만, 각 sql 벤더들 보면 죄다 fulltext 지원을 하니 맘만 먹으면 다 구현 가능할거야.
일단 확실한건, MSSQL, MySQL, PostgreSQL 은 다 잘됨. 100만건의 html 데이터는 그냥 가지고 놀아...
생각해봐...요즘 피시값이 싸잖아....그럼 어떻겠어 말은 100만건 이지만 저걸 클러스트로 묶어서 쓴다면?
나름 설계만 잘하면 왠만한 중소기업에서는 전혀 문제가 되지 않게 쓸수 있지 않을까?
뭐 정 그게 안된다면 뭐 다른 대안도 있지만,,, 그 대안까지는 굳이.....대기업이 아니고 내가 무슨 정보포탈 만들것도 아니고 충분할듯.

아...말이 길어지넹....자 일단 요이야기는 여기서 마무리

그리고 검색엔진 최적화방법.
이건 무슨!!! 우리나라 열라 엿같아. 표준은 저너머 어디에 버리고 와서리....
그러니 완전 포탈노예들이 된거지.....다른말 다 필요없고, 그냥 웹구현시 표준만 잘 지키면 80%는 해결
자 그럼 나머지 20% 는? 그건 각 검색엔진들의 특성을 찾아서 커스터마이징 해주면 돼
이건 봇이란 놈을 좀 연구 하면 쉽게 답이 나와.
그래도 2% 부족해......그 2%는 비밀로 붙여둘께..^^

아무튼 주절주절 적어 내려가 봤어...젠장 오늘도 날샛네..
이상.



'IT > 검색엔진' 카테고리의 다른 글

Relevance Ranking for Vertical Search Engines  (0) 2014.04.21
elasticsearch  (0) 2014.03.18
elasticsearch  (0) 2013.09.07
Comments