질문/조언질답게시판
Extra Form
PHP PHP 7.0
CMS Rhymix

 아래 사진을 보면  이상하게   search_keyword=   이런식으로  구글에 등록되있더라고요    막상 들어가면  아무것도 안뜨고 그냥

이동도 이상하게 되길래   search_keyword=  부분을 크롤링이 안되게  막을려고 하는데요  어떻게 해야될지 궁금합니다

robot.txt부분을 건들어서   search_keyword=  크롤링 못하게 막아야 할까요?  

 

스크린샷 2020-05-22 오후 9.43.38.png.jpg

  • profile
    https://xetown.com/robots.txt
    참고하세요
  • profile profile
    답이 가까운데 있었네요 :) 혹시 추가적으로 저렇게 사이트맵이 로봇에 있는경우가 많은데 저렇게 하는 이유가 뭔지
    여쭤봐도 될까요? 저같은 경우는 구글콘솔 서치 Sitemaps 부분에 사이트맵을 등록하거든요
    그런데 저렇게 로봇 부분에도 왜있는지 궁금합니다 ...ㅎㅎ
  • profile profile
    등록 안해도 잘 가겨가니 신경 안쓰셔도 됩니다. 그리고 구글과 네이버의 경우는 웹마스터도구에 별도로 사이트맵 경로를 또 설정하기 때문에 할 필요도 없구요.
  • profile profile
    넵 자세한 설명 감사합니다 :)
  • profile
    제가 일전에 알려드린 것 robots.txt 에 적용하셔서 이제는 검색결과로는 안가져갈 겁니다.
    색인된거는 그 전에 크롤링된 것일 겁니다.
  • profile profile
    넵 감사합니다 :)
  • profile
    제 경험상 구글크롤링으로 하루 60G씩 그것도 매일 오래 계속 발생한다는게 상상이 안가네요.
  • profile profile

    아직까지 해결책을 모르겠습니다 웹지기님께서 항상 말씀 하신것처럼 구글봇이 아닐수도 있다고 하셔서 다른쪽에 문제인지 계속 살펴봐도 해답을 알수가 없네요... 구글봇 아이피를 차단 시키면 트래픽은 또 그때 처럼 60G 이상 나오지 않고
    하루에 5G 발생하고   그렇게되면  아이피도 차단 시켜서 구글에 크롤링도 안되고 또 크롤링이 안되니 아이피를 풀면 그 동시에 트래픽이 또 밀쳐 날뛰니...예전에 다른 사이트 운영할때는 이런적도 없고 엑스이타운에 검색 해봤지만 이런 현상이 생긴사람은
    없으신거 같으시네요

  • profile profile

    1.구글 아이피가 하나가 아닐텐데 여러대역을 차단하신건가요?
    2.구글 봇이 아이피가 여러개가 아니라서 차단한 아이피대역 외 다른 아이피로 크롤링 할수 있을 수도 있어 그럴지 모르겠습니다.
    정확히 차단을 언제 하셨고 차단을 다시 푼게 언제인가요?
    제가 검색해 보니 처음에 언급하신 4월 29일 이후 크롤링해서 색인이 계속 되고 있던데요 ?

    구글이 범인이 아닌거 아닌가요?

     

     

    그리고 지금 정도의 방문 규모로 볼때 하루 5G 정도면 구글에서 크롤링을 하고 있다고 보여집니다.

  • profile profile

    1. 네  그때 처음으로 60G 트래픽이 발생했을때  그때 당시에는  구글인거 같아서  구글 아이피 66.249 아이피를 차단했습니다  그래도  계속 발생되길래  66.249.*.*   66.249 로 시작하는  아이피는 싹다 모조리  차단시켰습니다  
    차단 시키니  더이상  트래픽이 발생하지 않더라고요  

     

    2.차단은 60G 트래픽이 발생하고서  4월29일 새벽부터 차단을 시작했습니다  그러고  3일 있다가  다시  아이피를 차단해제를 하니  평소대처럼   하루  1~2G 발생 하더라고요  그때  말씀해주신  robots 부분도 추가 했었습니다  그렇게  다시  트래픽이 정상으로 됬지만

     

    5월21일부터  다시 23G 올라가기 시작했습니다

     

    + 네 맞습니다  하루에  3~4G 정도  나옵니다

     

     

    스크린샷 2020-05-22 오후 10.07.08.png

  • profile profile

    66.249.* 의 아이피들에 의해 하루 50G 이상 발생이 되는게 확인이 되신거죠?
    그럼 구글봇이 맞는건데 지금 이런 일이 벌어지는게 이해는 가지 않네요.
    이런 사례가 흔했으면 저도 많이 간접적으로 알수 있었을텐데 그렇지 못했거든요.

    저 아이피들로만 폭증하는 트패릭의 전체가 유발이 되고 있다면 구글에서 운영하시는 사이트에 짧은 시간에 반복적으로 크롤링을 계속 한다는 이야기가 되는데요...

     

     

    참고적으로 저희 사이트도 말씀하신 아이피 대역은 계속 방문하고 있습니다. 

  • profile profile

     

    그때 어떤분께서 한번 리퍼러 설치해서 확인해보라고  해서  확인을 해봤습니다  예전에 60G 발생 했을때  비슷한  아이피 입니다

    66.249. 아이피를 차단 안하면  이렇게 계속 들어오는게 잡힙니다   다시 아이피를 차단하면  66.249 아이피들은 들어오지 못하구요  동시에 트래픽도 멈춥니다

     

     

     

    스크린샷 2020-05-22 오후 10.17.14.png.jpg

     

     

  • profile profile

    차단하면 못들어오고 차단 풀면 들어오는건 너무 당연한거구요.
    60G의 대부분이 저 아이피들로만 발생한거지에 대한 객관적인 데이터를 확보하셨나는 겁니다.

     

    차단했더니 트래픽 증가가 멈췄다. 이건 의심할 수 있는 가설은 되기는 합니다.

    저게 저렇게 계속 들어오더라도 트래픽이 생각보다 작을 수 있거든요.

  • profile profile

    그렇군요 :)    그럼...저 마지막으로  이 사진에 대해서  어떻게 생각하시는지 궁금합니다

    아래 사진을 보시고서  정상인지 비정상인지만  알려주시면 감사하겠습니다

     

    스크린샷 2020-05-22 오후 10.26.40.png.jpg

  • profile profile
    유저에이전트로 보면 조작 가능성도 있으니 ip집단으로 봐야 하는게 결론을 내기에는 더 맞을 겁니다.
  • profile
    차단하고 구글 콘솔에서 수동으로 접근 요청해보세요 되는지
  • profile profile
    그 말씀하시는게 66 아이피를 차단하고 구글 콘솔로 수동으로 색인 요청이 되는지 확인 해보라는 말씀 이신가요 :) ?
  • profile profile
    네 차단하고 Url 검사하고 나서 실제 url테스트로 접근되나 해보세요
  • profile profile
    말씀하신대로 몇시간전에 차단 되있는 상태에서 수동으로 색인 요청을 해봤습니다 그때 요청했을때 로봇이 그 페이지를 접근 못하는지 접근이 안되더라고요
  • profile profile
    그럼 구글이 미친듯이 크롤링 하는게 맞나보네요
  • profile profile
    음..저도 그렇게 생각은 하고 있지만 확실하게 구글에서 그러는지 모르겠네요 하하하...
  • profile profile
    결론을 내고 싶다면 ip로 확인할 수 있게 해 놓고 모니터링을 하면 됩니다.
    현재 구글 ip를 막았을때 트래픽 증가가 멈춘다는건 어느정도 테스트로 결론을 내릴 수 있는 근거는 됩니다.

    그런데 저에게 봐달라고 해주신 이미지에 특정 에이전트가 발생시키는 트래픽 발생량 전부가 구글 ip인지는 저희가 지금 확신할 수는 없는 마지막 단계가 남았다는거죠.

    지금까지의 정황으로 볼때는 구글이 과도하게 크롤링을 반복? 적으로 한다고도 볼 수 있습니다.

    이러한 상황에서 지금 클라우드플레어를 굳이 쓰실 필요가 있는지에 대한 의문도 듭니다. 어차피 이런 트래픽을 캐시해주지 않는다면 말이죠.

    지금 클라우드플레어로 인해 먼저 주신 이미지에서 ip로 확인하는 것이 의미가 없는게 맞는 상황인거죠?

    구글이 범인이라면 참 해법도 없는 난감한 상황인 것 일겁니다.
  • profile profile

     그러네요....  지금 에서는 클라우드 플레어 효과도 없네요     말씀하신대로  ip로 확인할수있게 모니터링을 하고 싶은데요
    확인을 해야되는데  ip집단? 이라고 하셨나요?  혹시 아래 사진이  ip 확인하는 부분인게 맞는건가요?

     

     

    스크린샷 2020-05-22 오후 11.07.58.png.jpg

  • profile profile

    네. 거기에 모두 지금 클라우드 플레어 아이피가 찍히기 때문에 구글인지 아닌지 땅땅땅 할 수 없는거죠.
    저라면 클라우드플레어 해제하고 모니터링해서 결론 내리고 그 후 고민해보겠습니다. 사실 구글이 범인이라도 할 수 있는 건 거의 없을 것 같긴 합니다.

     

    클라우드플레어에서 구름만 꺼버리면 DNS만 클라우드플레어를 이용하고 CDN 은 작동하지 않습니다.

    - 제가 말씀 드린 클라우드플레어 해제

  • profile profile

    아하! 현재 제가 클라우드 플레어 사용중이니 아이피가 클라우드 플레어 아이피로 찍히기 때문에 정확히 누군인지
    확인이 불가능하니 클라우드 플레어 해제 하고서 모니터링해서 결론을 내리면 되는거군요

     

    +구름만 끄면 되는건가요?  네임서버는 건들 필요 없나요?

  • profile profile

    네. 구름만 끄면 됩니다. 클라우드플레어 DNS는 아주 성능이 좋아 계속 쓰시는게 좋아요.

    구름끄고 적용되는데 20분 정도 소요될 수 있습니다.

  • profile profile
    하마터면...네임서버도 원래대로 할뻔했네요 현재 A, CNAME, CNAME 이렇게 구름 3개가 존재하는데 3개 다 꺼버리면 되는거죠?
  • profile profile
    네. 다 끄세요~
  • profile profile
    감사합니다 :)
  • profile
    클라우드 플레어 쓰는지는 몰랐네요.
    클플 쓰면 얘기가 좀 달라집니다.
    이미 클플 푸셨으니 진단하시고 클픅 이외의 아이피는 접속 못하도록 조치하시는게 좋습니다.
  • profile profile
    클플 이외에 아이피는 접속 못하도록 할려면
    제가 어떻게 해야될지 알수 있을까요오오?
  • profile profile
    https://www.cloudflare.com/ips/

    위 아이피를 클라우트 플레어에서 접속하는 아이피 입니다.
    위 아이피를 제외한 나머지 아이피를 다 접속할수 없게 방화벽에서 설정하시면 됩니다.
    80 또는 433 포트 접속만 차단하세요. ssh 이런거 차단하면 안됨