마지막으로 해보자 했던게 바로 정답이어서 해결되었습니다.
네이버가 파싱한 페이지에서 엉뚱한 부분의 숫자를 작성일자로 판단해서 제대로 반영하지 못하는 것을 확신하고 극단의 조치를 해서 해결을 했습니다.
타운도 같은 조치를 한거로 보이는데요.
제가 많은 것을 해서 결국 마지막에 해결이된 주요한 것은
본문 이외의 요소들이 멍청한 네이버가 날짜를 뽑아가는데 어려운 것을 착안해서
본문 이외의 부분을 모두 제거했습니다.
1.레이아웃의 좌,우측 부분 모두 제거했습니다.
- 좌측에는 사이트메뉴, 우측에는 여러가지 다른 것들 배치
2.본문 아래 글 목록 부분 제거했습니다.
1,2를 통해 본만만 딱 노출되도록 했습니다.
크롤러 자체를 제한해도 되지만 멀쩡한 구글봇에게는 제한하고 싶지 않아 네이버가 공개한 네이버 크롤러 봇 에이전트를 사용해서 해당 에이전트(Yeti) 만 제한하는 방법으로 네이버에게만 간단하게 본문만 보이도록 했습니다.
또 본문 읽는 페이지에서만 제한되도록 조건을 걸었습니다.
이것도 한 6개월짜리 숙제였는데 결국 오늘 해결을 보았네요.
색인 문서도 엄청 ? 늘어났고 작성일자도 정확하게 붙어서 색인이 됩니다. (rss 처음 수집될때 보이는 날짜 말고 진짜 색인될때 날자.)
속이 다 후련~~~~~~~~ 하네요.
네이버에서는 글 제목,작성일자,본문 외 다른 것은 보이지 않아 여기서 작성일자를 못 찾는 일은 발생하지 않는 다는 것이 확인되었습니다.