질문/조언질답게시판

하도 찝찝해가지고  몇시간전에 파일 로그 깔아났습니다 지금 12시 지나고 트래픽 확인해서 또 이상하게 올라가는거 같아 파일로그 확인하니 몇분이 사진을 30번을 다운 받았는데  이거 공격이라도 봐도 되는건가요?  왠만해서는 사진 1장을 다운받는게 정상인데  이상하게 30개를  다운받는게 너무 이상하게 느껴지네요

 

이제는 트래픽 올라가는것도 무서워서 확인을  계속하게 만드네요

스크린샷 2020-04-29 오전 12.18.00.png.jpg

  • profile
    다른 페이지나 사용자가 글쓴분 사이트의 이미지 링크를 이용해서 이미지를 보여주도록 해둿을 수도 있어요. 그러면 그 이미지 링크를 퍼간분 페이지에 사용자가 볼때마다 글쓴분 서버에서 파일을 조회하겠죠..
    referer 체크 등을 통해서 막는 방법이 있겟네요 ..
  • profile profile
    감사합니다
  • profile
    구글봇이 미쳐 날뛰네요 허우..
  • ?
    외부 이미지 링크는 차단하셨나요?
  • ? profile

    스크린샷 2020-04-29 오전 1.47.10.png.jpg

    스크린샷 2020-04-29 오전 1.46.59.png.jpg

    스크린샷 2020-04-29 오전 1.48.13.png.jpg구글봇이 계속 들어옵니다... 물론 robot.txt 로봇 못오게 막긴했지만 계속 들어오네요 벌써 4기가 긁어먹었네요 ㅠㅠ

  • profile profile
    구글은 막으면 안들어올텐데요.
  • profile
    66.249.로 시작하는 아이피라면 진짜 구글봇 맞습니다. 적어도 구글봇을 사칭한 파싱 시도는 아닌 것 같네요.
  • profile profile
    제가 궁금한건 저 리퍼러모듈에서 잡힌 66.249 가 아래 스샷의 구글봇 에이전트와 정확히 일치하는 비중의 대부분인가 입니다.

    그리고 봇을 막았다면 구글은 안들어오거든요. 일단 봇을 막은게 잘못된것 같은 상황
    그리고 일부 구글봇이 리퍼러에 잡히는건 지극히 자연스러운 현상인데 일부가 아니고 지금 트래픽의 전부라면 구글봇이 트래픽을 전부 발생시키고 잇다는 것 일 겁니다.

    아래 구글봇 처럼 보인 에이전트를 가진 놈들이 전체의 95% 이고 이놈의 아이피가 66.249 인가 가 중요해 보입니다.

    지금 아마도 XE에서는 실제 아이피가 확인되도록 해 놓은 것 같이 보이기도 하네요.

    트래픽 발생 95% 라고 나오는 저 그룹의 아이피 확인이 필요해 보이네요.
  • profile profile
    새벽에 이렇게 두고는 자다가 요금 폭탄 맞을 거 같아서 그냥 싹 다 66.249. 임시로 전부 아이피 막아버렸습니다
    듣기로는 막게 되면 색인이 안된다고는 들었지만 요금 폭탄 맞을 바에 잠시 차단했습니다 그러고서 새벽 4시까지 지켜보니
    못 들어오더라고요 다행히 아침에 다시 보니 트래픽이 멈췄네요
  • profile profile
    구글에서 사이트 문서와 사이트 노출 모두 다 내려가게 되죠.

    그런데 클라우드플레어는 해제 하지 않으셨을텐데 실제 아이피가 감지가 이제 되나보죠?
  • profile profile
    robots.txt 막아도 뚫고 계속 들어오길래 호스팅에서 로봇 아이피를 막았는데도 계속 들어오더라고요 그래서 리퍼러 통해서 어떤 아이피가 계속 들어오는지 확인해보니 구글 봇 66.249. 아이피가 계속 들어오더라고요 그래서 아이피 차단
    애드온으로 66.249. 시작되는 아이피 싹 다 막아버리니 못 들어오네요 잠시간 동안은 사이트 노출이 안되겠지만
    상황 보고서 다시 풀어야겠습니다
  • profile profile

    구글이 하루에 50 ~ 100G 씩 발생시킨다는게 황당하네요. 지금 robots.txt 에서 막은거는 풀어 놓으면 확실해 질 수도 있겠네요.

     

    robots.txt 다 막은거는 타격이 너무 큽니다. 우리나라 유입 대부분인 네이버도 막히나까요

  • profile profile
    그럼 네이버만 오도록 설정해야겠습니다 감사합니다 :)
  • profile profile
    확실히 해 두시려면 현재 상태에서 robots.txt 는 열어보세요.
    지금 막은 아이피 구글봇만의 소행인지 구글이 억울하게 막힌건지 테스트가 가능합니다.
  • profile profile
    그리고 위 스샷에서 에이전트 말고 ip로도 한번 보여주시면..
  • profile profile
    그럼 말씀하신대로 robots.txt 만 열어야 할까요? 아니면 robots.txt 열고 구글봇 아이피도 차단 해제해서 봐야할까요?
  • profile profile

    ip는 막아놓아야죠. 그놈만 트래픽 발생하고 있는지 알아보려는거니까요.

  • profile profile
    넵 그럼 ip는 막아두고 한번 지켜보겠습니다
  • ?
    음.. 혹시 최근에 운영과 관련해서 주소 전반이 바뀔만한 작업을 하지 않으셨나요? 짧은 주소 기능을 ON 하셨다던가... 아마 짧은 주소 기능을 갑자기 켜셨다면 구글이 사이트 전체를 다시 파싱하려고 들었을 것 같다는 생각이 드는데요.
  • ? profile
    아니요 최근에 주소를 바꿀만한 작업은 한 적이 없습니다 어제 짧은 애드온 써보라고 하셔서 적용은 했지만
    적용하기 전에는 따로 주소에 대해 작업한 거는 없던 거 같습니다
  • profile ?

    짧은 주소 애드온 쓰면 주소가 전부 다 바뀔겁니다... 그게 원인인거 같은데요.

  • ?

    그리고 짧은 주소 애드온말고도... 주소가 심각하게 꼬인 부분이 있는 것 같습니다. 지금 구글 검색해보면 dami0409.com에 페이지 갯수가 29만개라고 나와요... 말도 안되는 숫자입니다. 실제 님 사이트의 페이지 갯수는 거기에 훨 못미칠테니 아마 같은 페이지가 뭔가 다른 주소 형태로 노출되는게 가능하다는겁니다. 그것도 매우 다양한 주소 형태로 말이죠... 그래서 구글이 어마어마한 숫자로 크롤링을 해댄겁니다. 이런 경우라면 주소에 시간정보가 포함되던가.. 아니면 뭔가 랜덤한 숫자라던가.. 아니면 search 필드에 뭔가가 들어가던가.. 그런 식으로 생각해볼 수 있습니다.

    예를 들어

    http://dami0409.com/index.php?act=IS&search_target=title_content&is_keyword=%EB%8B%A4%EB%AF%B8%EB%A5%BC%EB%8B%B4%EB%8B%A4

    이런 주소가 어떤 경로로 생성되었는지 한번 확인해보세요... 

    구글에서 검색한 페이지중의 하나인데... 어떻게 저런 주소가 크롤링 대상이 되었는지 알 수가 없습니다.

    전에는 안그러다가 갑자기 그런거면 최근에 설치한 뭔가의 애드온의 부작용일겁니다 아마

  • ? profile

    스크린샷 2020-04-29 오후 4.06.17.png.jpg

    확인해보니 진짜 29만개로 말도 안되는 숫자가 나오기는하네요 보여주신 링크를 확인해보니 사이트에 적용되있는
    인기검색어 모듈인거 같기도 합니다 실시간 검색어 누르면 저런 링크로 나오기는하더라고요 이 애드온일 가능성이 있을까요?

  • profile ?

    그렇군요 인기검색어 모듈에서 뭔가 마구 URL을 내보내니까 그게 전부 다 구글 입장에선 새로운 URL이라서 전부 크롤링의 대상이 되었나봅니다. 뭐 인기검색어만이 원인인지 아닌지는 모르겠습니다만...

  • ? profile

    스크린샷 2020-04-29 오후 4.02.13.png적용한지도 꽤 됬는데 예전에는 아무일 없다가  갑자기 최근에 이러는게 이상하기는 하네요...

  • profile ?

    구글이 모든 사이트를 매일 새로 검사하는건 아니라서... 우선순위가 떨어지는 작은 사이트들은 사이트의 변화가 구글에 자동으로 반영되기까지 상당한 시간이 걸립니다.

  • ? profile

    스크린샷 2020-04-29 오후 4.17.32.png.jpg인기 검색어 모듈  로그 확인해보니  구글 봇 아이피가 주르르륵 나오네요  시간도 보니 엄청 짧은 시간에 몇초에 한번씩 검색한거 같구요  아마도   이 모듈 + 애드온 문제일수도 있을거 같네요

  • profile profile
    저희 사이트 robots.txt 일부 공유해 드립니다.
    Disallow: /?module=file&act=procFileDownload*
    Disallow: /*act=IS&
    Disallow: /*act=IS$
    Disallow: /*search_keyword=*&search_target=

    저희는 불필요한 검색 색인을 막기 위해 이정도는 못 긁어가게 해 놓고 있습니다. 물론 추가적인게 있지만 관련된 몇개만 알려드립니다.
  • profile profile

    감사합니다 :)