커뮤니티토픽게시판

@눈팅킹님 께서 네이버 유입이 되지 않는다고 질문글을 올리셔서 답변의 댓글 중 일 부내용을 글로 작성해 봅니다. 이전에도 이러한 사실은 여러차례 말씀을 드렸던 것 같습니다.

 

우선 네이버의 경우 웹사이트에 문서가 새로 발행 되었는지의 확인은 해당 웹사이트의 rss를 읽고 확인 되는 글을 새로운 글로 인식을 하고 해당 내용을 그대로 웹문서로 그대로 수집합니다.

 

 

rss 정보는 사이트 자체적으로 문서제목,내용 등의 정보를 열람하는 요청자에게 제공하는 것으로 실제 웹문서의 내용과 다른 내용일 수 도 있는 사실 어쩌면 어뷰징을 위한 툴이 될 수도 있습니다.

 

실제 해당 웹페이지를 방문해서 보여지는 문서의 내용이 실제 정확한 문서의 모습이겠죠.

 

그래서 네이버도 그렇고 구글도 그렇고 웹문서를 실제적으로 색인할때는 자신들의 크롤링 봇이 직접 웹페이지의 주소까지 방문하여 보이는대로 수집을 합니다.

 

 

 

 

xetown.png

 

 

크롤링 봇이 직접 방문해서 수집한 웹문서의 정보로 바뀌어서 색인된 모습은 위와 같이 브라우저타이틀에 사이트에서 설정해서 보여지도록 한 그대로가 표시됩니다. 

 

타운의 경우는 제목 - 게시판명 - 사이트명 이 노출되도록 해 놓았습니다. 

제목이 이렇게 보이는 문서는 2차로 봇이 방문해서 수집한 문서라는 것 입니다. 

 

또하나 구별할 수 있는 것은 문서주소 옆에 작은 삼각형이 보이는 경우 입니다. 누르게 되면 펼쳐지면서 저장된 페이지를 확인할 수 있습니다.

 

이게 실제 봇이 수집한 모습 그대로를 보여주니 한번 살펴보는 것도 좋습니다.

 

내 사이트의 문서 내용이 색인될때 왜 내용이 아닌 다른 부분이 내용에 포함되는지 이유를 알 수 있게 됩니다.

 

 

 

반면 2차로 봇이 방문하지 못하고  rss 발행 정보만 가지고 수집에 머문 경우는 어떨까요 ?

 

meeco.png

 

 

이렇게  rss 에서 제공하는 내용만 정확하게 수집됩니다.    XE나 라이믹스  rss 정보는 규약에 맞게 제목,내용 등이 포함되게 되죠.. 

 

이렇게 깔끔하고 정확한 내용만 수집되는 이유는 웹페이지를 방문해서 수집할때 함께 보게 되는 레이아웃이나 스킨의 영역이 전혀 없는 문서정보만 있는 rss 의 정보를 가져갔기 때문입니다.

 

 

그런데 이렇게 1차적인 수집인  rss  수집으로만 웹사이트 문서가 색인되고 있다고 깔끔해서 좋다 라고 좋아할 일은 아닙니다.

 

아마도 이렇게  rss 정보와 실제 웹문서의 내용이 다른지 파악을 위한 크롤링봇이 방문해서 수집한 내용으로 색인이 되지 못하는 경우는 같은 키워드로 검색했을때 노출 순위에서 아마도 상당히 밀려 유입이 상대적으로 많이 떨어지게 될 것 입니다.

 

 

물론 네이버의 수집의 방식 그리고 수집,색인한 문서의 노출 우선순위 모두 공개된 것도 없고 제가 여러 실험을 통해 얻은 주관적인 결론입니다.

 

그리고 스킨이나 레이아웃등이 네이버의 봇이 방문해서 문서를 확인하는데 방해가 되고 있지 않다면 봇이 크롤링해서 문서를 색인하지 않는 것을 어떻게 할 수 있는 방법은 없습니다. 

 

아마도 네이버의 특별한 기준이 있거나 아니면 네이버 시스템의 오류 일 것 입니다.

 

그런데 분명한건 스킨에 코드의 영향으로도 이러한 문제는 발생할 수 있다는 점입니다.

 

 

 

네이버만 이렇게 실제 봇이 방문해서 웹문서의 내용을 가져가 색인하는 것은 아닙니다.

 

google.png

 

 

당연히 구글도 사이트에서 제공하는 정보를 신회하지 않고 자신들의 봇이 방문해 수집한 내용으로 노출 합니다.

 

 

그런데 유독 네이버 봇이 좀더 오류에 민감하고 웹페이지를 분석하는데 실패하는 그런 문제가 있다고 볼 수 있습니다.

 

 

 

웹사이트의 문서들이 어떻게 색인되고 있는지 수집은 잘 되고 있는지 가끔 확인을 하시는 것이 좋습니다. 그래야 내가 작성한 코드중 오류나 혹은 오류는 아니더라도 네이버 봇이 문서해석에 방해를 받고 있다면 그 것을 해결하는 것이 좋습니다.

 

이때  검색창에  site:도메인 으로 검색을 하면 해당 도메인의 문서들을 웹사이트 영역에서 볼 수 있습니다.

 

웹사이트 더보기 를 눌러 해당 사이트의 문서 100 페이지까지 볼 수 있는 상태에서 정렬을 "최신순" 으로 하여 현재 시점에 어떤 문제가 있는지 확인해 보셔야 합니다.

글쓴이 웹지기

profile
^ ^
Atachment
첨부 3
  • profile
    feed공개에서요 전문공개로 하는것이 좋을까요?
  • profile profile
    rss 를 읽는 사람에게 전체를 보여주고 싶다면 전문, 일부만 보여주고 싶다면 요약 이겠죠. 운영자의 목표에 따라 다르겠죠.
  • profile profile
    넵! 전혹시 검색결과에 영향이 있나해서요.
  • profile profile
    당연히 영향은 있겠죠. rss 로 수집된 상태로만 노출 되는 사이트라면 요약공개의 경우 전문 공개보다 글 내용 부분이 작은 글자수가 노출 되죠.

    하지만 rss 수집정보로만 노출되는 수집정보는 검색노출에 실제 제공될만한 정도의 가치로 판단받지 못했을 가능성이 높으므로 별 의미가 없을 수 있습니다.

    또 네이버만 이러한 수집 방법을 쓰고 있는 것이고 다른 곳은 rss 를 이용하지 않을 가능성이 높습니다.

    오직 검색결과만(네이버) 생각하신다면 당연히 전문공개해서 네이버에서 지정한 글자수까지 제공되도록 하는 것이 맞습니다.

    rss 를 제공했을때 사용하는 곳이 네이버 검색만이 아니니 이는 결국 운영자의 목표에 따라 달라진다고 할 수 있습니다.
  • profile profile
    넵 감사합니다.

서버에 요청 중입니다. 잠시만 기다려 주십시오...