Extra Form
PHP PHP 8.3
CMS Rhymix 2.1

검색 봇들이 무엇을 색인하나 살펴보다가 2가지 특이한 문자열 접근이 많아서 질문드립니다.

 

 

1) 쿼리 문자열에 아래처럼 '?t=' 로 시작하고 뒤에 숫자만 다른 접근이 많이 있습니다.

검색을 해도 나오지 않아서 궁금합니다. 이런 접근도 robots.txt 에서 차단해도 괜찮은 건가요?

?t=1730465793

 

이러한 접근의 경우 모든 경로는 아래처럼 일반문서 경로가 아닌 것이 대부분입니다.

 

/files/cache/assets ~~

 

/modules/board/skins/sketchbook ~~

/common/js/plugins ~~

 

 

2) ?act=copytrack 의 문자열로 접근하는 봇들도 종종 있는데,

이렇게 접근하는 봇도 무슨 용도인지도 모르겠고, 함께 차단해도 괜찮은 건가요?

 

 

  • ? Lv2
    1. 소스보기를 하시면 각종 js/css 파일에 해당 문자열이 남아있는걸 확인할 수 있습니다. 파일의 변경점을 알려주기 위한것이므로 삭제하거나 이를 접근거부처리하시면 안됩니다
    2. 대부분 구형 워드프레스 혹은 cms들을 찾는 목적으로 온갖곳에 리퀘스트를 뿌리는 넷봇들입니다. 어느 경로로 검색하는지 면밀히 살펴보시고 공통점을 찾아 차단하시면 됩니다.
  • Lv36

    정말 검색에 노출된다는 의미의 "색인"을 하던가요? 아니면 그냥 서버 로그에 남는 것 뿐인가요?

     

    하나의 페이지를 제대로 색인하려면 거기서 참조하는 CSS, JS 리소스도 모두 한 번씩 봐야 하기 때문에, 서버 로그에 남는 것은 정상입니다. 요즘 검색엔진들은 실제 브라우저처럼 렌더링해서 보니까요.