제가 여러차례 네이버의 색인과정에 관해 설명을 드린 적이 있습니다.
rss 수집 -> 2차 봇이 직접 방문해서 실제 웹페이지를 파싱해서 실제 보이는대로 수집 후 제목,내용 등 추출 색인
rss와 메타정보를 거짓으로 제공하는 어뷰징에 대응을 하려면 실제 웹페이지를 접속해서 문서를 확인하는 것은 네이버,구글 모두 마찬가지 입니다.
그런데 문제는 이 봇이 얼마나 정교하게 보여지는 웹페이지를 잘 해석하냐 입니다. 그래서 주기적으로 자신의 사이트에 문서가 각 검색엔진에 어떠한 형태로 읽혀져서 저장이 되고 있는지 확인을 할 필요는 있습니다.
오늘 이 글을 쓰게 된 이유는 개인적으로 요청이 들어와 분석을 하다가 정보로서 공유할 필요가 있다고 판단해서 공개 게시글로 적습니다.
- 개인적으로 문의 주시면 사실 답변드리지 않습니다. 저희가 개개인별로 커뮤니티라는게 효율도 떨어지지만 바람직하지 않은 방법이죠.
https://xetown.com/questions/1140409
위 질문글의 사이트가 문제입니다.
봇이 전혀 사이트를 파싱했을때 어떠한 사이트인지 파악할 수 없는 상태에 있습니다.
그런데 웹페이지최적화를 해 보면 모든 것이 정상이라고 보여집니다. 네. 맞습니다. meta 소스는 아주 쉽게 빠르게 읽혀지는 장점이 있죠. 그런데 이 meta 소스는 충분히 조작이 가능하기에 이게 OK 된다고 해서 색인이 이루어지는 것이 아닙니다. 위에서도 설명드렸죠.
rss 정보로 문서 발행사실이 확인되면 네이버에서는 rss정보로 일단 웹문서 수집을 합니다.
그리고 해당 문서로 직접 봇이 2차로 출동해서 웹페이지를 그대로 파싱하니다. 그 파싱된 것을 자기들 나름의 로직으로 제목,본문을 추출해 냅니다.
이 사이트의 문제는 지금 meta 소스는 문제가 없기에 최적화 테스트까지는 통과가 되는 것 입니다. 그럼 색인이 안되고 있는 이유를 봇이 방문했을때 어떻게 보이길래 그런지 확인이 필요한데 이게 소스를 시멘틱하게 꼼꼼히 분석하기 전에는 찾아내기 힘이 듭니다. 사람 눈에는 보이지 않는 작은 오류가 봇에게는 시멘틱한 구조를 무너뜨리는 경우가 있습니다.
네이버에서 색인이 안되기 때문에 지금 네이버에서 어떻게 보이는지 조차 알 수 없었습니다.
그래서 그보다 조금 더 똑똑한 구글봇은 어떻게 가져갔는지 확인해 봤습니다. 물론 네이버는 문제가 있지만 구글은 정상적으로 가져가는 경우도 있습니다.
https://webcache.googleusercontent.com/search?q=cache:k2eRsIexJQ0J:https://gisullab.com/+&cd=22&hl=ko&ct=clnk&gl=kr
보시면 구글봇에서도 컨텐츠영역을 파싱해 가지 못했습니다. 이렇게 되기 때문에 네이버에서는 당연히 사이트,문서 모두 빈 내용으로 가져갔기 때문에 색인이 이루어지지 않고 웹마스터도구에서도 사이트에 대한 정보를 가져올 수 없다고 나오게 됩니다.
그럼 이런 경우 어떤 원인이 이렇게 만드는지 해결방법은 뭔지 찾아 해결해야 겠죠.
1.사용중인 애드온 중에 사이트 html을 바꾸는 것 들이 있습니다. 팝업 애드온 등등... 이런 자료가 잘못 만들어진 경우 봇에게는 치명적으로 head,body등의 순서가 뒤엉키게 됩니다.
- 관련 애드온이 있다면 사용을 중지해야 하며 사용중인 영향을 줄만한 애드온을 모두 꼼꼼히 확인하셔야 합니다.
2.레이아웃에 소스를 추가하면서 시멘틱한 구조를 무너트리는 잘못된 코드를 잘못된 위치에 넣으셨을 수 있습니다.
3.레이아웃 또는 보드스킨이 잘못 만들어지거나 보드 스킨을 수정하면서 사람에게는 괜찮지만 봇에게는 오류를 발생하는 것이 만들어질 수 있습니다.
- 지금 이 사이트는 메인페이지부터 문제가 생기고 있으니 레이아웃 차원에서 접근해야 합니다. 물론 레이아웃이 아닌 애드온도 마찬가지로 레이아웃영역의 문제를 일으키는건 마찬가지 입니다.
*작년 10월 이후에 적용하신 것이 원인일 가능성이 높습니다.
아.. 그리고 구글의 경우 사이트 문제로 색인되어 저장된 페이지가 없다라도 구글서치콘솔(웹마스터도구)에서 url별로 확인,색인 요청을 할 수 있습니다. 하루에 50개 까지 가능합니다. 구 서치콘솔에서는 오류가 많이 납니다. 신 서치콘솔로 이동해서 작업하시면 오류없이 50개까지 가능합니다. 여기서 구글봇이 어떻게 해석하는지 눈으로 볼 수 있습니다. 연속으로 하다보면 리캡차가 떠서 좀 불편하긴 합니다.