N사 웹문서 수집에 관한 최근 분석 및 대응

최근에 심심해서 N사에서 웹수집해간 주소가 왜 XE의 소스보기에서는 찾아볼 수 없는 MID가 없는 주소이지 ? 에서 출발해서 분석을 조금해 보았습니다.

XE로 만들어진 사이트 중에 여러케이스가 있습니다.

1.MID가 없는 주소로만 수집되어 있는 경우

2.MID 없는 주소 , MID 있는 주소 중복 수집되어 있는경우

3.MID 있는 제대로 된 주소로 수집되어 있는 경우

- 이 케이스는 또 2가지 타입으로 나뉩니다.

4.아무주소도 수집하지 않는 경우 (최악)

MID가 없는 주소로 수집되는 경우는 라이믹스에서는 발생할 수 없고 XE의 대부분의 사이트가 MID가 없는 주소로 수집이 됩니다.

이유는 어처구니 없이 N사에서 알수 없는 이유로 웹문서 수집을 사이트에서 공개한 rss를 가지고 갑니다.

이 것은 제가 도대체 어떤 주소를 참조해서 우리 사이트의 주소를 MID가 없는 주소로 가져갈까 하면서 온갖 곳을 다 뒤져보다가 rss가 아직도 MID가 없는 주소로 발행되는 것을 발견하게 되었습니다.

이후 /modules/rss/tpl 폴더의 모든 파일을 고쳐서 MID가 포함된 주소로 발행이 되게 고쳤습니다.

---> 모니터링 결과 MID가 포함된 RSS에 노출된 주소로 다시 수집해가기 시작했습니다.

XE로 운영하시는 사이트는 RSS에 노출되는 주소를 MID가 포함되게 고쳐주세요. 중복해서 수집되는 문제가 있습니다.

라이믹스는 이미 RSS에서 MID가 포함된 주소로 노출되고 있어 아마 라이믹스 사이트는 중복해서 수집하지는 않을겁니다.

그런데 라이믹스는 치명적인 문제가 좀 있습니다.

https://www.feedvalidator.org/

위 사이트에 라이믹스 사이트들의 rss주소를 넣고 돌려보면 결과가 나오지 않습니다.(에러가 뜨지는 않지만요. 에러가 뜨면 N사에서는 완전 꽝입니다만....) 결과가 나오지 않는 상황도 영향이 있을 것으로 추측이 됩니다.

클라우드플레어 무료플랜의 ssl을 사용중인 사이트는 위 사이트에 rss주소 넣고 돌려보면 에러 뜹니다. 이렇게 되면 N사에서 rss를 이용한 1차적인 웹수집이 되지 않습니다.

라이믹스 관계자분들은 rss를 검토해 보셔야 할 것 같습니다. 표준 혹은 범용의 문제가 아닌 N사에 대응해야 하는 문제로서요....

피드 전체가 잠겨 있는 사이트들 있는데 절대로 rss는 켜 놓으셔야 합니다. 이유는 N사에서 편의성 때문인지 몰라도 1차 수집은 rss로 수집을 합니다. 그러므로 절대 켜 놓아야 합니다.

물론 N사가 저렇게 정말 말도 안되게 rss만으로 수집해서 그 것으로 끝내는 것은 아닙니다. 이 후 실제 웹문서에 접근해서 해당 문서를 긁어 갑니다. 그래서 rss에 노출된 주소형식과 실제 문서에 노출된(SEO에 의해 만들어진 문서주소)주소가 다르면 2개가 수집됩니다.

rss 로 1차 수집하고 2차로 웹문서를 긁어가서 수집하는 사이트의 결과

처음 수집때는 rss의 노출된 것을 가져갔기 때문에

문서제목

요약내용

이렇게 노출이 됩니다.

이후 웹문서를 크롤링해서 긁어갔을때 그 정보로 바뀝니다.

문서제목 - 브라우저타이틀

요약내용

자신의 사이트 문서들이 현재 문서제목 - 브라우저타이틀 로 보여지고 있다면 네이버 봇이 실제 웹문서를 크롤링한 결과 입니다.

위에서 언급했지만 rss에 MID 없이 지금 보여지고 있는 사이트가 대부분 이기 때문에 같은 문서가 2가지 형태로 수집되어 보여지고 있습니다.

rss에 MID가 포함된 주소로 보여주게 고쳐주시면 문서제목- 브라우저타이틀 로만 노출될 확율이 높습니다

그런데 그렇지 않을 수 있는 경우는 rss로만 가져가고 어떤 이유에서 실제 웹문서 크롤링이 차단된 사이트는 MID가 포함된 브라우저 타이틀이 없는 문서제목으로 노출될 수 있습니다.

3.MID 있는 제대로 된 주소로 수집되어 있는 경우

- 이 케이스는 또 2가지 타입으로 나뉩니다.

라고 두케이스로 나뉜다고 이야기 한 부분이 지금 설명한 부분입니다.

또 반대로 RSS가 해석되지 않는 사이트의 경우는 rss로 긁어간 주소는 노출이 되지 않습니다. 대신 이 사이트가 웹문서 실제 크롤링까지 막혀 있지 않다면 문서제목 - 브라우저타이틀 이런식으로 노출이 됩니다. XE공홈이 이러한 케이스입니다.

https://search.naver.com/search.naver?where=webkr&sm=tab_srt&query=site%3Ahttps%3A%2F%2Fwww.xpressengine.com&r=&filetype=none&option=off&fd=2&st=d&docid=0&dfrom=&dto=&f=&srcharea=all&dtype=all&sbni=&domain=&fqr=-1&research_url=&sbni_rootid=&nso=so%3Add%2Ca%3Aall%2Cp%3Aall&ie=utf8&mson=0

저도 왜 rss로 긁어가지 않는지는 정확히 확인하기 어려우나 지금 공홈의 결과를 보시면 rss를 참조한 것이 아닌 실제 문서의 소스에 있는 것을 제대로 가져간 것을 확인 할 수 있습니다.

제가 분석한 것을 근거로 제안을 드리면

XE사이트로 운영중이시라면 rss에 보여지는 주소를 모두 MID가 포함된 주소로 고쳐주세요.

그리고 RSS발행을 금지 해 놓으셨다면 발행을 하시기 바랍니다.

또 RSS발행을 요약이 아닌 전체로 하시길 권해 드립니다.

저희는 이미 고쳐 놓았지만(php단에서 고친게 아니라서..) 이슈로 등록해 처리를 요청해 놓았습니다. 하지만 언제 처리될지..

https://github.com/xpressengine/xe-core/issues/2155

ps: XE타운도 rss로 긁어가긴 하지만 무슨 이유에서인지 실제 웹문서를 크롤링해 가는 것 까지는 하지 않는 상황입니다.

N사 웹문서 수집에 관한 최근 분석 및 대응

웹지기

LOGIN