색인된 문서를 알아보려 구글, Bing, 다음, 네이버에서 "site:www.xetown.com"을 검색해보았습니다.

 

1위 구글 : 3,620개

1.png

 

2위 Bing : 472개

2.png

 

3위 다음 : 181개

3.png

 

꼴지 네이버 : 37개 (신디 없으면 겨우 1개)

4.png

 

  • Lv30

    네이버 신디연동해서 어제부터 색인된거 사라지는지 보세요. 길면 2~3일 정도에 사라져요. 사라진다면 저희 사이트랑 같은 케이스에요.

  • Lv30 Lv15
    일단, 신디를 2일전에 켰기때문에 아직은 알 수 없습니다. 2일전에 꺼는 살아있네요.
  • Lv15 Lv30
    네. 앞으로 한 2-3일만 더 지켜보면 확실히 알 수 있어요.
  • Lv15 Lv30
    1개 사라진듯 하네요. 36개
    작성자가 삭제한 문서가 없다면요.
  • Lv30 Lv15
    앗... 그렇네요!
  • Lv15 Lv30
    네. 작성자가 삭제한게 아니라면 나머지 글들도 색인되었던 시간 역순으로 차례로 사라지게 됩니다.

    새로 색인된거 반영하면 1개가 아니고 여러개가 사라졌네요.
  • Lv30 Lv15
    5일 전께 있는 걸봐서 삭제가 안됬어요.
  • Lv15 Lv30
    네. 이제는 안사라지네요. 저 댓글 시간 기준으로는 여러개가 삭제되었어요. 숫자상으로요. 신규색인된게 여러개 였는데 숫자가 줄은거로 봐서 중간에 어떠한 문서들이 사라졌었는데요. 일단 그 후로는 사라지지 않는 것 겉아요.

    XE타운은 이제 정상적으로 색인이 잘 될 듯합니다
  • Lv30 Lv15
    포메러브는 아직도 그러나요?
  • Lv15 Lv30
    저희 사이트는 신디케이션 연동을 엇그제부터 다시해서 이제 다시 색인이 되기 시작하는데요. 사라지는지는 2-3일 더 봐야 할 듯합니다. 신규색인도 이제 2개 되었어요.

    제가 일단 시도해보는 것은 저희 사이트 index 파일설치 위치인 /XE 폴더로 사이트확인용 파일을 옮겼습니다.

    이게 불일치해서 이녀석들이 뭔가 오해를 하는가 아닌가 해서요.

    기존에는 확인용파일은 루트에 있고 XE관리자페이지에는 사이트도메인이 /xe 까지 들어가서 설정이 되어있었습니다.
  • Lv30 Lv15
    혹시 권한있어야 읽을 수 있는 게시판이 많나요? 그런 게시판들 신디의 제외목록에 있나요?
  • Lv15 Lv30
    아니요. 몇개 있긴 한데요. 따로 제외목록에 넣진 않았구요. 이전에도 상황은 동일했어요. 색인이 지워지지 않을때도요.
  • Lv30 Lv15

    제외목록에 넣어야한다고합니다. 안 그럼 차단이래요. 예전에 네이버에 문의했을때 답변입니다. 신디1이지만...

     

    1.png

     

    2.png

     

  • Lv15 Lv30
    네. 의견 감사합니다. 신디2 최근까지 이상이 없었는데 이런한 정책이 있다면 제외를 하는게 안전하겠네요.
  • Lv15 Lv30

    근데 이건 불가능한게 저희 같은 회원제 사이트의 경우 게시글 작성이 정회원이상인데요.. 비회원은 글 작성이 금지되어 있지 않나요?

     

    윽.. 아니군요. 글 열람시 비밀번호군요..

  • Lv30 Lv15
    글작성 권한이 아닌 글보기 권한을 말하는 거죠..
  • Lv30
    http://web.search.naver.com/search.naver?where=webkr&query=site%3Awww.xetown.com&docid=0&lang=all&f=&srcharea=all&st=d&fd=2&start=1&display=10&domain=&filetype=none&sbni=&dtype=all&dfrom=&dto=&sm=tab_pge&r=&research_url=&sbni_rootid=&nso=so%3Add%2Ca%3Aall%2Cp%3Aall&ie=utf8&fqr=-1
  • Lv30
    위 주소로 계속 모니터링 해보면 답 나와요.
  • Lv30
    근데 그거 아시나요? 언제부터인가 네이버에서 웹마스터도구 사이트 등록시 http 와 https를 구분해서 등록받고 있는거? 만약 이걸 구분하기 시작했는데 지금 등록된 형식과 글 발행형식이 달라 블라인드 되는거라면.....
  • Lv30 Lv15
    네. 구분해서 받고 있더라구요. 전체 SSL 적용으로 변경했더니, 신디에서 오류가 나서 그때부터 꺼버렸어요. 그때은 원인을 몰랐죠.
  • Lv15 Lv30
    그럼 https 로 새로 동록 하신건가요?
  • Lv30 Lv15
    네!
  • Lv37

    총 게시물 수가 500개 정도인데 3,620개를 긁어간 구글은 대체 뭥미?
    link rel="canonical"은 그냥 살포시 무시하는 건가요? ㅋㅋㅋ

    실제 쓸모있는 결과 갯수는 빙이 제일 정직한 것 같네요 ^^

  • Lv37 Lv30

    여러가지 주소형태 다 긁어가요. 구글은요...  방법이 하나 있긴 한데 ?표 들어간걸 못긁어가고 색인에서 제외처리 하면 되는데요.. 문제는 다국어적용하니 이 ?표가 필요해지더라구요. 그래서 저희 사이트는 깔끔한 주소만 노출하다가 최근 다국어 적용하고 나서 동일게시물이 여러개가 노출되는 불편을 다시 맞게 되었네요~

  • Lv30 Lv37
    하긴, 한 30페이지 넘어가니까 중복이 많네요. 로그인 페이지만 여러 개씩 긁어가고 ㅋㅋ

    뭐 그래도 안 긁어가는 것보다는 중복으로 긁어가는 편이 낫겠죠?
  • Lv37 Lv15
    맞아요. 구글은 게시물만 아니라 https://xetown.com/index.php?mid=square 이것과 https://xetown.com/index.php?mid=square&category=4301 이것 모두 끍어가요... 원래검색엔진 느낌...
  • Lv37 Lv30
    내부검색용을 구글맞춤검색으로 할때는 ?표 들어간걸 제한해서 깔끔하게 정확한 링크만 제공하는게 좋은데요. 다국어가 발목을 잡아서 다시 제한했던거 풀었어요 ㅋ
  • Lv15 Lv30

    더 심하게 페이지별로 분류된 게시물주소까지... ㅋ 질려버리는 구글입니다 ㅋ

     

    https://xetown.com/index.php?mid=lakepark&page=3&document_srl=7819

  • Lv30 Lv15
    ㅋㅋ 원래 검색엔진은 그 맛인데...링크는 모두 긁어간다.. 중복이든 아니든 상관없이...
  • Lv30 ? Lv17
    웹지기님 혹시 ? 요걸로 제한하는거 어디서 어떻게 하는지 좀 가르쳐주시겠어요?

    /?

    요거인지

    아님 그냥 ? 요거인지도 헷갈려요.^^;
  • ? Lv17 Lv30

    User-agent: Googlebot
    Disallow: /?*

    Disallow: /*?



    요게 맞을거에요. 제가 기억으로는 *가 붙으면 뒤에 어떤문자열이 와도 모두 포함하는 것으로 압니다.

    robots.txt. 파일에 적용하면 크롤링이 저기 주소는 거부되구요.
    이미 색인된 것이 있기에 그거 요청하려면 구글웹마스터도구에 보시면 색인제외 요청 하는 곳이 있습니다.
    같은 형식으로 요청하시면 될거에요. (같은 형식이라합은 ?*)

  • ? Lv17 Lv30
    필터링이 robts.txt에 으해 제대로 되는지는 구글웹마스터도구에서 실제 주소를 입력해 보면 확인 바로 가능합니다.
  • ? Lv17 Lv30
    패턴 일치 규칙
    예시
    문자열을 차단(별표* 사용): 예를 들어 예시 코드는 이름이 'private'으로 시작하는 모든 하위 디렉토리에 대한 액세스를 차단합니다.

    User-agent: Googlebot

    Disallow: /private*/

    물음표(?) 포함하는 모든 URL에 대한 액세스를 차단: 예를 들어 예시 코드는 사용자의 도메인 이름으로 시작하여 그 뒤에 아무 문자열이 이어진 뒤 물음표가 오고 마지막으로 다른 문자열이 오는 모든 URL을 차단합니다.

    User-agent: Googlebot

    Disallow: /*?

    특정 문자열 또는 문자로 끝나는 URL을 차단($ 사용): 예를 들어 예시 코드는 .xls로 끝나는 URL을 모두 차단합니다.

    User-agent: Googlebot

    Disallow: /*.xls$

    Allow와 Disallow 명령어로 패턴 차단(오른쪽 예시 참조): 이 예에서 물음표(?)는 세션 ID를 나타냅니다. 이러한 ID를 포함하는 URL은 웹 크롤러가 중복 페이지를 크롤링하는 것을 방지하기 위해 보통 Google로부터 차단되어야 합니다. 한편 포함하려는 페이지 버전의 URL이 ?로 끝나는 경우 다음과 같은 접근법을 토대로 Allow와 Disallow 명령어를 조합하여 사용할 수 있습니다.

    Allow: /*?$ 명령어는 ?로 끝나는 모든 URL을 허용합니다. 즉, 도메인 이름으로 시작하여 그 뒤에 문자열과 ?가 차례로 오고 ? 뒤에 아무 문자도 오지 않는 모든 URL을 허용합니다.
    Disallow: / *? 명령어는 ?가 포함된 모든 URL을 차단합니다. 즉, 도메인 이름으로 시작하여 그 뒤에 문자열과 물음표가 차례로 오고 물음표 뒤에 문자열이 나오는 모든 URL을 차단합니다.
    User-agent: *

    Allow: /*?$

    Disallow: /*?
  • Lv30 ? Lv17
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~name/
    Disallow: /?*
    Disallow: /*?
    User-agent: Googlebot
    Allow: /
    User-agent: daumoa
    Allow: /
    User-agent: NaverBot
    Allow: /
    User-agent: Yeti
    Allow: /
    User-agent: Baiduspider
    Disallow: /

    저는 xe주소를 보니 /?* 이걸 더 차단해야 할것 같아서...걍 둘다 적용되게 요렇게 적용 했네요. ^^
  • ? Lv17 Lv30
    아니요.. /*?
    요렇게 하면 물음표 들어가면 무조건 차단이요.
  • Lv30 ? Lv17
    넵.
  • Lv30
    저희 사이트도 오늘 네이버에서 사이트인증 확인하는 파일 다시 XE폴더로 옮기고 리다이렉트했던거 제거하고 사이트 등록을 /XE폴더가 존재하는 것으로 해서 다시 등록했습니다. 모니터링 해봐야겠네요. 이제 다시 색인된거 지우는지 아닌지....
  • ?
    생각했던 것 보다 차이가 크네요.
  • 네이버 검색에 잘되게 하는게 정말 힘들어요..