Extra Form
PHP PHP 7.4
CMS WordPress

안녕하세요.

 

작은 워드프레스 블로그를 Nginx+Ubuntu+Mariadb+Php7.4 황경에서 운영하고 있으며,  거의 1년 동안 아래의 사진과 같은 내부 검색 스팸 문제를 겪고 있습니다.

 

그래서 서버 측에서 아에 차단을 해버리고 싶습니다만, 방법에 관해 조언을 구하고 싶습니다.

 

2023-05-16 21 04 29.jpg

 

실제 작성 글 수는 300여개 남짓입니다만, 인덱싱 / 노인덱싱 된 페이지가 3만건을 넘어갑니다 

 

/s=  , /search= , /s=%/feed/ ,/search=%/feed/ 네 종류로 인덱싱이 됩니다.

 

이 악성 봇을 차단하기 위해 엑세스 로그를 활성화 후 확인해보니  다음과 같은 검색엔짓이 크룰링 하는것만 보이네요.....

 

157.55.39.239 - "GET /?s=블랙잭 전략 BO77.TOP 메이저바카라사이트 추천 바카라 전략 온라인카지노순위 qB HTTP/2.0" 200 82982 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0;  http://www.bing.com/bingbot.htm) Chrome/103.0.5060.134 Safari/537.36"
 

어떻게 해야지만 이 공격자를 찾아내서? 차단을 시킬 수 있까요 ㅠ ㅠ

 

방법이 궁금합니다. 감사합니다.

  • profile

    robots.txt에서 검색과 관련된 URL을 모두 막아버리는 것이 어떤가요?

     

    User-agent: *

    Disallow: /s=*

    Disallow: /search=*

    그 밖에도 문제가 되는 URL 패턴이 있다면 추가하시고요.

     

    구글, 빙 등 정상적인 검색엔진이라면 300개 각각의 글만 긁어가면 됩니다. 검색은 자기네가 훨씬 잘 할 수 있으니 워드프레스의 검색 화면을 긁어갈 필요가 없다는 뜻이지요. 위와 같이 아예 차단해 버리면 제3자가 스팸을 아무리 시도하더라도 검색엔진이 그 주소에 방문하지도 않고, 인덱싱되지도 않을 것입니다.

  • profile
    noindex 처리와 윗분 답변 주신 것 처럼
    robots.txt 처리 하시면 하실 수 있는 것은 다한 것 같습니다.
    서치콘솔에 not index 페이지로 쌓이는 것은 어쩔 수 없을 것 같습니다.
    없는 페이지 등으로 처리하면 4xx 쌓일 것 이구요...

    첨부하신 캡쳐는 bing 봇이 해당 url을 크롤링 하는 것으로 보이는데
    이런 형태의 스팸인 경우 다른 커뮤니티 게시판 등에 저런 형태로 링크를 남겨서 크롤링 되는 것 입니다.
    따라서 어떤 사이트에서 링크가 되어있는지 확인 하고 링크 거부를 하는 것도 방법이 될 것 같습니다.

    하단 링크 참고 하시기 바랍니다.
    https://support.google.com/webmasters/answer/2648487?hl=ko&sjid=15946514098256537786-AP
  • ?

    robots.txt로 하셔도 html head나 http header로 다시 막아야됩니다.

     

    검색 쿼리는 일반적으로 그렇게 길지 않으니 어느정도 길게 들어오면 400번대 오류로 처리하는게 좋을것 같아요.

     

    악질적인게 스팸사이트들이 검색쿼리를 포함한 링크를 자동으로 생성해서 검색엔진에 제출해서 정상 검색로봇이 해당 검색 URL로 함께 접근하는것 같더라고요

     

    https://hi098123.tistory.com/495
    https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ko