robots.txt 검증 도구

확인할 URL

도움말

사용법

  1. robots.txt값을 입력하고, 검색엔진 User-Agent와 확인할 주소를 입력합니다.
  2. 검증하기 버튼을 누르면 선택한 User-Agent에서 해당 주소 접속이 '허용됨' 또는 '차단됨'이 확인가능합니다.

 

기타 안내사항

  • 이 툴은 Google의 robots.txt 처리 방식을 그대로 따릅니다.

    (구글과 방식이 완전히 동일하지만, 네이버 등 타 검색엔진과 처리가 다를 수 있습니다.)

    google/robotstxt를 Apache-2.0 license에 따라 이용중입니다.

     

  • robots.txt를 검색 수집방지 목적으로 사용하지 않는게 좋습니다.

    meta태그(또는 응답헤더)로 지정된 로봇 태그가 우선순위가 높고, 타 웹페이지에서 링크로 연결되어 크롤링 되는 경우 robots.txt를 건너뛰기도 합니다.

    구글 검색 키워드 어뷰징에 kakao.com이? 글을 참고해보세요. (검색 결과에서 제외하려면 meta태그나 http헤더값을 함께 이용하세요.)

     

  • robots.txt의 여부와 상관없이 크롤링하는 로봇이 많습니다.

    가급적이면 Disallow는 특수한 상황에서 메이저 검색엔진 차단용으로만 쓰는게 맞습니다.

    다음의 경우으로 Disallow를 쓸 수 도 있지만, 서버자원이 모자란게 아니라면 굳이 쓸 필요 없습니다.

    • CPU자원(or Disk자원)이 모자랄때? 검색등 대량 쿼리 방지용도
    • 트래픽이 모자랄때? 이미지 주소등 트래픽 차단 방지용도

     

  • User-agent: * Disallow / 사용을 주의하세요.
    User-agent: *
    Disallow /

    User-agent를 모두 차단 하니, 정상적인 검색엔진은 모두 차단됩니다.

    이러면 robots.txt를 무시하는 이상한 로봇들만 수집하게 되는데..

     

    User-agent: GoogleBot
    Allow /

    이후에 일부 로봇을 허용하여도 문제가 될 수 있습니다.

    Google로봇은 텍스트 수집 기반의 GoogleBot 이외에도 이미지, ads.txt, 애드센스 등 다양한 로봇을 운영중인데 텍스트 수집만 허용한다면 차단과 크게 다를바가 없습니다. (애드센스 로봇 차단시 광고가 뜨지 않게됩니다.)

    이는 대부분의 정상적인 검색엔진에서 마찬가지이며, 위 안내처럼 인터넷에는 robots.txt의 여부와 상관없이 크롤링하는 로봇이 많기 때문에 정상 검색엔진은 robots.txt로 허용한다고 생각하고 값을 넣어야합니다.

     

  • 접근 '허용됨' 상태인데 색인되지 않아요..?

    검색엔진은 검색결과에 보여줄 내용을 색인합니다.

    사이트에 색인할 내용은 자체 기준(알고리즘)에 따라 결정되며, 사이트를 만든지 얼마 안된경우 색인이 늦어질 수 있습니다.

오류제보 / 기능제안   글 작성하러가기