자유게시판자유게시판 "자유"

자유

2019.02.14 12:10:01

사이트내 문서가 많으면 매일 트래픽이 많이 발생하는 이유.

웹지기

조회 수 364 추천 수 0 댓글 3

크게 작게 댓글로 가기

크게 작게 위로 아래로 댓글로 가기

방문자가 많아서 축적된 모든 글을 열람해서 트래픽이 많은 것이 아닙니다.

이건 너무 당연한건데 트래픽관리를 하고 싶어하면서 이부분을 잘 이해 못하는 경우가 있는 듯 하여 굳이 게시글로 하나 작성해봅니다.

저희들의 웹사이트 문서가 검색자에게 제공이 되려면 검색엔진이 사이트 내의 문서를 수집해 가야 합니다.

- 그런데 여기서 많이 오해하시는 부분이 처음에 한번 가져가면 그것으로 계속 제공할 것이라 생각하는대 절대 오해입니다.

- 보통 1일 이내의 간격으로 사이트를 계속 반복적으로 방문해서 모든 문서는 아니더라도 나름의 로직을 가지고 반복해서 수집해서 변경내용을 수정하고 다시 색인합니다.

- 검색엔진(네이버,구글) 의 검색결과에 "저장된 페이지" 라는 것이 없는 경우는 색인 저장이 안된 문서입니다.

- 이 저장된 페이지의 수집,저장된 날짜를 보시면 검색엔진이 잘 와서 가져가는 경우는 최신 날짜로 계속 갱신이 됩니다.

따라서 문서가 1만단위 정도 수량이 된다면 기본적인 네이버,카카오,구글,빙 그리고 기타 검색엔진들이 매일 와서 계속 수집하는 것으로만으로도 트래픽의 대부분이 발생됩니다.

문서가 굉장히 많은 사이트이면서 문서가 밖으로 노출되지 않아도 되는 사이트라면 봇을 막으면 매일 발생하는 트래픽의 상당부분을 절감 할 수 있습니다. 하지만 웹에 공개한 사이트의 경우 대부분 검색엔진에 노출되길 바라기 때문에 이 트래픽은 감수를 해야합니다.

이 트래픽 양이 문서양과 절대적으로 비례합니다. 트래픽 컨트롤을 하려고 할때 이 기본으로 깔고 가는 트래픽양을 염두해햐 합니다.

다 아시는 이야기일 수 있지만 글로 작성해 봤습니다.

위로 아래로

기진곰

2019.02.14 12:24:34
#comment_1172297

구글, 네이버, 빙 봇이 대부분의 트래픽을 잡아먹지만, 검색엔진과 무관하게 트래픽만 잡아먹는 잡봇(?)들도 많습니다. AhrefsBot, BLEXBot, DotBot, SemrushBot 이런 놈들은 가차없이 차단해 버려도 됩니다. robots.txt로 막아도 계속 들어오기 때문에 그냥 User-Agent를 차단해 버리는 게 좋습니다. 러시아 검색엔진에 노출될 필요가 없다면 Yandex도 차단하시고요.

어설픈 파싱 시도를 막으려면 curl, wget, PHP 등의 User-Agent를 차단하는 것도 도움이 되지만, 사이트 내부적으로 돌아가는 웹크론이나 비동기 요청(예: 푸시앱)까지 막힐 수도 있으니 주의해야 합니다. 웹크론에 curl을 사용한다면 wget은 막아도 됩니다. 단, 파싱 로봇도 User-Agent를 얼마든지 바꿀 수 있으므로 완벽하지는 않습니다. 파싱을 시도하는 IP 주소나 대역을 막는 것이 더 확실합니다.

SNS에 공유했을 때 제대로 나오도록 하려면 카카오나 페이스북 봇은 차단하지 말아야 합니다.

웹지기

2019.02.14 12:29:31
#comment_1172303

네. 기본저인 검색엔진들이 긁어가는 양이 상당하는 내용의 글이구요. 당연히 도움이 안되는 검색엔지과 악성봇은 막아서 낭비되는 트래픽이 발생하지 않도록 해야죠.

구글,네이버,카카오,빙 의 검색엔진에서만 매일 긁어가는 트래픽이 상당합니다. 물론 수집 주기를 조금 길게하여 조금 완화할 수는 있겠지만 이것도 안먹히는 경우도 많고 그렇죠.

때문에 이 글의 주요 주제는 내 사이트에 요즘 방문자도 없는데 왜 트래픽이 꾸준하게 발생할까 ? 라는 그런 의문에 대한 답이라고 할 수 있습니다.

빙을 막자니 마이크로소프트에서 배포하는 OS의 경우 브라우저에 기본적으로 빙이 사용되서 이용하는 경우도 제법됩니다 ㅋ
저도 사실 익스플로러에서는 그냥 바꾸기 귀찮아서 기본설정된 검색엔진 빙을 쓰고 있습니다 ㅋㅋ

웹지기

2019.02.14 12:44:37
#comment_1172312

캐시서버를 운영하면 큰 도움이 됩니다!

로그인 후 참여할 수 있습니다.