커뮤니티토픽게시판

제가 여러차례 네이버의 색인과정에 관해 설명을 드린 적이 있습니다.

 

rss 수집 -> 2차 봇이 직접 방문해서 실제 웹페이지를 파싱해서 실제 보이는대로 수집 후 제목,내용 등 추출 색인

 

rss와 메타정보를 거짓으로 제공하는 어뷰징에 대응을 하려면 실제 웹페이지를 접속해서 문서를 확인하는 것은 네이버,구글 모두 마찬가지 입니다. 

 

그런데 문제는 이 봇이 얼마나 정교하게 보여지는 웹페이지를 잘 해석하냐 입니다. 그래서 주기적으로 자신의 사이트에 문서가 각 검색엔진에 어떠한 형태로 읽혀져서 저장이 되고 있는지 확인을 할 필요는 있습니다.

 

오늘 이 글을 쓰게 된 이유는 개인적으로 요청이 들어와 분석을 하다가 정보로서 공유할 필요가 있다고 판단해서 공개 게시글로 적습니다.  

- 개인적으로 문의 주시면 사실 답변드리지 않습니다. 저희가 개개인별로 커뮤니티라는게 효율도 떨어지지만 바람직하지 않은 방법이죠.

 

 

 

https://xetown.com/questions/1140409

 

 

위 질문글의 사이트가 문제입니다.

 

 

363792b51a2bfbfd785b474dcf80d6af.png

 

 

봇이 전혀 사이트를 파싱했을때 어떠한 사이트인지 파악할 수 없는 상태에 있습니다.

 

 

 

 

 

 

 

 

07ae3bced62c5def0dd1100b86f2d8e9.png

 

그런데 웹페이지최적화를 해 보면 모든 것이 정상이라고 보여집니다. 네. 맞습니다. meta 소스는 아주 쉽게 빠르게 읽혀지는 장점이 있죠. 그런데 이 meta 소스는 충분히 조작이 가능하기에 이게 OK 된다고 해서 색인이  이루어지는 것이 아닙니다. 위에서도 설명드렸죠.

 

 

 

rss 정보로 문서 발행사실이 확인되면 네이버에서는 rss정보로 일단 웹문서 수집을 합니다.

 

그리고 해당 문서로 직접 봇이 2차로 출동해서 웹페이지를 그대로 파싱하니다. 그 파싱된 것을 자기들 나름의 로직으로 제목,본문을 추출해 냅니다.

 

 

이 사이트의 문제는 지금 meta 소스는 문제가 없기에 최적화 테스트까지는 통과가 되는 것 입니다. 그럼 색인이 안되고 있는 이유를 봇이 방문했을때 어떻게 보이길래 그런지 확인이 필요한데 이게 소스를 시멘틱하게 꼼꼼히 분석하기 전에는 찾아내기 힘이 듭니다. 사람 눈에는 보이지 않는 작은 오류가 봇에게는 시멘틱한 구조를 무너뜨리는 경우가 있습니다.

 

 

 

네이버에서 색인이 안되기 때문에 지금 네이버에서 어떻게 보이는지 조차 알 수 없었습니다.

 

그래서 그보다 조금 더 똑똑한 구글봇은 어떻게 가져갔는지 확인해 봤습니다. 물론 네이버는 문제가 있지만 구글은 정상적으로 가져가는 경우도 있습니다.

 

 

 

 

다운로드.png

 

 

 

https://webcache.googleusercontent.com/search?q=cache:k2eRsIexJQ0J:https://gisullab.com/+&cd=22&hl=ko&ct=clnk&gl=kr

 

다운로드 (2).png

보시면 구글봇에서도 컨텐츠영역을 파싱해 가지 못했습니다. 이렇게 되기 때문에 네이버에서는 당연히 사이트,문서 모두 빈 내용으로 가져갔기 때문에 색인이 이루어지지 않고 웹마스터도구에서도 사이트에 대한 정보를 가져올 수 없다고 나오게 됩니다.

 

 

 

그럼 이런 경우 어떤 원인이 이렇게 만드는지 해결방법은 뭔지 찾아 해결해야 겠죠.

 

1.사용중인 애드온 중에 사이트 html을 바꾸는 것 들이 있습니다. 팝업 애드온 등등... 이런 자료가 잘못 만들어진 경우 봇에게는 치명적으로 head,body등의 순서가 뒤엉키게 됩니다. 

 - 관련 애드온이 있다면 사용을 중지해야 하며 사용중인 영향을 줄만한 애드온을 모두 꼼꼼히 확인하셔야 합니다.

 

2.레이아웃에 소스를 추가하면서 시멘틱한 구조를 무너트리는 잘못된 코드를 잘못된 위치에 넣으셨을 수 있습니다.

 

3.레이아웃 또는 보드스킨이 잘못 만들어지거나 보드 스킨을 수정하면서 사람에게는 괜찮지만 봇에게는 오류를 발생하는 것이 만들어질 수 있습니다.

 - 지금 이 사이트는 메인페이지부터 문제가 생기고 있으니 레이아웃 차원에서 접근해야 합니다. 물론 레이아웃이 아닌 애드온도 마찬가지로 레이아웃영역의 문제를 일으키는건 마찬가지 입니다.

 

 

*작년 10월 이후에 적용하신 것이 원인일 가능성이 높습니다.

  • profile

    아.. 그리고 구글의 경우 사이트 문제로 색인되어 저장된 페이지가 없다라도 구글서치콘솔(웹마스터도구)에서 url별로 확인,색인 요청을 할 수 있습니다. 하루에 50개 까지 가능합니다. 구 서치콘솔에서는 오류가 많이 납니다. 신 서치콘솔로 이동해서 작업하시면 오류없이 50개까지 가능합니다. 여기서 구글봇이 어떻게 해석하는지 눈으로 볼 수 있습니다. 연속으로 하다보면 리캡차가 떠서 좀 불편하긴 합니다.

  • profile
    불량링크가 누적되면 사이트가 아예 검색결과에서 빠집니다.
    검색봇이 문제점을 감지하면 내부 시스템에 등록되고, 누적되면 사람이 직접 방문해서 확인합니다.

    구글 같은 경우 구글 일본 본사에서 한국어 할 줄 아는 직원이 직접 방문해서 평가합니다. 문제가 지속되면 서치콘솔이나 애드센스 정책센터에 문제점이 표시됩니다.
  • profile profile
    그렇죠. 어뷰징이라는 것이 진화하고 수시로 발생하기에 사람이 개입하지 않고 처리를 할 수는 없는게 현실이죠.
  • profile
    아.. 제가 아래로 스크롤을 더 내리지 않아 미처 아래에 컨텐츠 내용이 나오는 것을 확인하지 못했습니다.
    일단 순서가 약간 이상해 보이긴 해도 컨텐츠영역이 건너뛴 건 아니네요.
  • profile

    추가로 더 확인해보니 지금 파싱한 모습이 모바일쪽으로 파싱이 되어 색인이 되었네요. PC모습과 전혀 다른 모습이 보여 제가 분석하는데 오류가 있었습니다.

    네이버에서도 봇이 모바일쪽화면이 파싱되면서 해석을 하지 못하는 상황일 수도 있을 것 같긴 합니다만..

     - 아마 이 확율이 그래도 제일 높아보입니다. 모바일 쪽을 가져갔을때 컨텐츠 영역이 사이드보다 아래에 나오면서 네이버에서는 컨텐츠를 확인 못하는 듯 합니다.

    전반적인 제 본문의 분석글 자체는 틀렸을 가능성이 많습니다.

  • profile
    네이버에서는 모바일 화면으로도 못가져가고 내용 자체가 없는 상태로 파싱이 될 가능성이 많아 보이니 제가 본문에 언급한 레이아웃,애드온,레이아웃 소스추가부분 등을 집중적으로 살펴보세요.
    최악의 경우는 html 관여하는 모든 애드온 중지하시고 레이아웃 교체까지도 검토해보셔야 할 것 같습니다.
  • profile profile
    감사합니다
    원인 파악 되면 꼭 원인 올려 놓겠습니다 우선
    실시간검색글이 제일 의심가네요
    레이아웃이나 게시판 스킨은 일전에 한번 다 초기 파일로 덮어 본적이 있었습니다

서버에 요청 중입니다. 잠시만 기다려 주십시오...