그렇다면 제가 제시하는 대로 해보세요. 네이버 봇이 정말로 멍청하기 때문에 발생하는 문제인데 만약 이문제로 인해 그동안 네이버 봇이 정확히 문서제목,내용 부분을 찾아내지 못했던 상황이라면 해결이 될 수 있습니다.
1.다른 곳은 필요 없고 PC의 글읽기 화면은 정말 별볼일 없을 정도의 간결한 구성을 해보세요.
- 네이버가 크롤링해서 어디가 문서의 제목이고 그리고 그 이후 어디부터 내용인지 찾아내는 능력이 굉장히 떨어집니다.
2.글 읽는 페이지는 무조건 1단(DIN) 레이아웃을 사용하세요.
- 네이버 봇이 멍청해서 입니다.
- 2단으로 구성시 사이드쪽에 무언가 많이 채워 넣으실 것 입니다. 그 자리에 특히 최신글 링크가 등장하는 최신글 목록은 절대 제공하지 마세요. 네이버 봇이 멍청해서 거기서 지금 파싱하는 문서의 제목과 링크(글주소)가 보이면 거기부터 아래에 글 내용을 찾으려다 실패합니다.
- 절대 1단으로 구성하시라고 말씀 드리고 싶은 것은 2단 3단 레이아웃의 경우 소스가 나열이 되면서 글 제목과 내용이 제일 아래에 위치하는 경우가 흔하며 이때 사이드에 배치해 놓은 여러가지 코드들이 위쪽에서 멍청한 네이버가 할일을 못하게 합니다.
3.1단 레이아웃으로 정말 간략하게
글제목
내용
으로만 구성하되 불가피하게 상단 과 중간 어떤 요소에 뭔가 고지를 하거나 안내를 꼭 하는 것 들이 들어가야 한다면 크롤러를 제한하는 조건을 걸어주세요.
- 네이버 멍청한 봇은 글 제목을 일단 찾으면 그 아래의 내용이 무조건 글 내용이라고 간주하는 못된 습성이 있습니다. 그래서 공통으로 들어가는 무언가가 있다면 모든 글 내용에 그것이 먼저 수집되어 버려 실제 글 내용은 수집이 안되거나 일부 몇자만 수집되고 거의 모든 글의 내용이 중복되는 글 처럼 판별 됩니다.
4.글 읽기 화면에 사용되는 애드온 중 화면에 끼어 들거나 하는 등 사람에게 보이는 순서와 소스의 순서가 다른 그런 자료가 굉장히 많습니다. 이런 애드온은 과감하게 애드온 상단에 크롤러 저리가! 라고 넣어주세요. 저는 약간이라도 영향을 주는 애드온에는 크롤러에게는 제공하지 않도록 모두 크롤러제한 코드를 넣고 있습니다.
대략 이정도만 고민해서 스킨에서 불필요한거 싹 뜯어내고 정리해 주고 불가피한 것 크롤러 제한만 해주면 멍청이 네이버봇도 제법 똘똘하게 글 제목,내용을 찾아내어 색인합니다.
물론 1,2,3,4 의 고려대상이 되는게 사실 이상한 것입니다. 네이버 때문인데요. 네이버를 욕해주고 말면 그만이 아닌게 네이버에서 검색해서 들어오는 대상이 아직 너무 많다보니 네이버에 색인은 되어야 하니 저희가 거기에 맞춰줄 수 밖에 없습니다.
서드파티 레이아웃, 스킨 제작자분들도 꼭 읽으셨으면 좋겠네요.
한 가지 추가 : 본문 바로 위의 제목에만 <h1> 태그를 쓰는 것이 좋습니다. 모든 페이지에 공통으로 나오는 사이트 이름(로고) 부분에 <h1> 태그를 쓰는 레이아웃이 꽤 많은데, 이거 안 좋아요.
XE로 만든 사이트를 네이버 개발자도구에서 분석해 보면 제목이 없거나 중복되었다고 나오는 페이지가 수두룩합니다. 중복이야 뭐 canonical URL을 이해하지 못하는 녀석이니 그렇겠거니 하는데, 제목이 아예 없다고 하는 것은 <title> 태그가 아니라 <h1> 태그를 제목으로 보고 있는 게 아닐까 하는 의심이 듭니다. <h1> 태그 안에 사이트 로고 하나 달랑 넣어 놓으면 로봇이 보기에는 아무 것도 없어 보일 테니까요.