게시물 제목으로 구글에서 검색해보면 똑같은 게시물이 여러개의 형태로 색인되어 있습니다.

 

www.abc.com/6234 형태의 짧은주소,

 

www.abc.com/index.php?mid=abc&listStyle=webzine&order_type=desc&sort_index=regdate&page=2&document_srl=623462

 

형태의 긴주소(?).

 

그리고 긴주소는 또 리스트 스타일이 웹진, 갤러리, 게시판 스타일로 나눠지고 

추천순 정렬 버젼, 조회수 정렬 버젼, 날짜 정렬 버젼... 뭐 완전 난장판 수준입니다;;

 

같은 게시물인데 여러개의 색인으로 나눠지는것도 문제지만

긴주소 형태로 유입되면 애드센스 광고가 잘 안뜬다는 문제도 있습니다.

 

검색봇들이 짧은 주소만 수집해가게 할 수는 없을까요

 

 

  • profile

    비교적 최근 버전의 XE나 라이믹스라면 구글에서는 짧은주소만 색인되는 것이 정상입니다. 현재 페이지 주소와 상관없이 검색로봇이 색인해야 할 유일한 주소를 가리키는 <link rel="canonical"> 태그가 소스에 박혀 있거든요.

     

    오래된 글이 아닌데도 계속 긴주소를 수집해 간다면 이 태그가 잘못 나오거나 중복된 것은 아닌지 확인해 볼 필요가 있겠습니다. 대개 SEO를 한답시고 사이트 상단 스크립트나 레이아웃 헤더 등에 SEO 관련 태그를 중복으로 추가하거나, common/tpl 폴더 아래의 파일을 잘못 건드린 경우 이런 문제가 생깁니다.

  • profile profile

    지금 작성자분이 언급하신 부분은 페이지를 구분한 상황의 게시글 열람 그리고 뷰 형태에 따라 주소가 바뀌는 그런 것들을 말씀 하신 것이라 코어에서 작동하는 짧은주소와 는 다른 경우에요.

    사실 저도 예전에 robots.txt 에서 url 필터도 많이 정리된 주소만 색인되도록 했었는데 지금은 그냥 풀어 두었습니다.

    (내부 검색보다 보다 많은 검색노출을 선택했다고 할까요...)

    봇이 파싱하면서 파싱이 되는 url 형태로 색인을 하면서 굉장히 다양한 주소로 문서를 수집합니다. 수집이 많이 된다는 점에서는 장점이고 특정 url 형태에서 애드센스가 노출이 잘 안된다던지 내부 검색용으로 구글검색을 사용할 경우 중복으로 결과를 노출한다는 점은 단점입니다.

    이건 입장에 따라 장.단점이 될 수 있는 문제라...

    SEO 측면에서는 구글에서 robotst.txt 를 이용해 특정주소를 크롤링하지 못하도록 하는 것은 하지 말라고 하는 부분이 있어 지금은 그냥 저희도 풀어 놓았습니다.

  • profile profile
    기진곰님께서 말씀해주신 케이스는 많이 발생하지 않겠지만 과거에 색인이 되었거나 등등의 이유로 게시글주소자체가 긴주소로 색인된 경우는 기진곰님께서 만들어주신 애드온으로 처리가 가능합니다.
    https://xetown.com/rxe_file/776283

    하지만 질문하신 부분은 이것과는 상관 없으니 아래 댓글을 참조해 주세요.
  • profile profile
    XE타운도 페이지를 넘어가거나 검색이 들어가면 지저분한 구조의 주소가 만들어지고, 심지어 robots.txt에서 검색어가 포함된 문서 페이지의 색인을 명시적으로 허용하기까지 했는데 구글에서 site:xetown.com이라고 검색해 보면 깔끔하게 짧은주소만 나옵니다. 구글은 실제 주소가 아니라 <link rel="canonical"> 태그에 지정된 대표주소를 색인하거든요.
  • profile profile

    그러네요. 지금 다시 검색해보니 예전과 다르게 페이징한 문서보기 형태는 색인에서 제외했네요. 구글도 예전에는 좀 너무하다 싶을 정도로 색인을 많이 했는데 이제는 페이지 부분은 뺀것 같습니다.

    여기 XE타운이 비교적 문서고유주소 형태로 나오는 것은 뷰어보기를 스킨에서 제거해서 그런것 같아 보입니다.

     

    그런데 네이버는 아직 일거에요....

  • profile
    https://support.google.com/webmasters/answer/6062608?hl=ko
  • profile
    ? 이런 문자가 들어가면 제외 되도록 robots.txt 에 룰을 작성하여 두는 것이 하나의 방법일 것 입니다. 물론 ? 가 들어간 주소중에 꼭 필요한 것들이 있는지는 충분히 검토하시면 될 것 같구요.