robots.txt 검증 도구

확인할 URL

도움말

사용법

  1. robots.txt값을 입력하고, 검색엔진 User-Agent와 확인할 주소를 입력합니다.
  2. 검증하기 버튼을 누르면 선택한 User-Agent에서 해당 주소 접속이 '허용됨' 또는 '차단됨'이 확인가능합니다.

 

기타 안내사항

  • 이 툴은 Google의 robots.txt 처리 방식을 그대로 따릅니다.

    (구글과 방식이 완전히 동일하지만, 네이버 등 타 검색엔진과 처리가 다를 수 있습니다.)

    google/robotstxt를 Apache-2.0 license에 따라 이용중입니다.

     

  • robots.txt를 검색 수집방지 목적으로 사용하지 않는게 좋습니다.

    meta태그(또는 응답헤더)로 지정된 로봇 태그가 우선순위가 높고, 타 웹페이지에서 링크로 연결되어 크롤링 되는 경우 robots.txt를 건너뛰기도 합니다.

    구글 검색 키워드 어뷰징에 kakao.com이? 글을 참고해보세요. (검색 결과에서 제외하려면 meta태그나 http헤더값을 함께 이용하세요.)

     

  • robots.txt의 여부와 상관없이 크롤링하는 로봇이 많습니다.

    가급적이면 Disallow는 특수한 상황에서 메이저 검색엔진 차단용으로만 쓰는게 맞습니다.

    다음의 경우으로 Disallow를 쓸 수 도 있지만, 서버자원이 모자란게 아니라면 굳이 쓸 필요 없습니다.

    • CPU자원(or Disk자원)이 모자랄때? 검색등 대량 쿼리 방지용도

      검색 페이지의 경우 쇼핑몰이 아니라면 굳이 허용할 필요는 없습니다. (사용자가 검색하여 접속할 때는 로봇이 긁어간 날보다 훨씬 뒤이며, 일반적으로 최신순 검색시 사용자가 찾는내용이 뒤로 밀려 원하는 결과를 찾기 어려울 수 있습니다.)

       

    • 트래픽이 모자랄때? 이미지 주소등 트래픽 차단 방지용도 (대신 이미지 검색이 불가합니다.)

      검색로봇의 트래픽을 줄이고 싶다면? 서버 설정을 통해 검색 로봇 User-Agent에서 320p 정도의 저화질 썸네일 주소로 redirect 시켜도 됩니다.

       

    robots.txt는 길거리에 있는 '주차금지', '금연', '미시오/여시오' 정도의 안내문일뿐이며, 이는 대형 업체의 일부 로봇만 지킵니다.

     

  • User-agent: * Disallow / 사용을 주의하세요.

    User-agent: *
    Disallow /

    User-agent를 모두 차단 하니, 정상적인 검색엔진은 모두 차단됩니다.

    이러면 robots.txt를 무시하는 이상한 로봇들만 접근하게 되는데..

     

    User-agent: GoogleBot
    Allow /

    이후에 일부 로봇을 허용하여도 문제가 될 수 있습니다.

    Google로봇은 텍스트 수집 기반의 GoogleBot 이외에도 이미지, ads.txt, 애드센스 등 다양한 로봇을 운영중인데 텍스트 수집만 허용한다면 차단과 크게 다를바가 없습니다. (애드센스 로봇 차단시 광고가 뜨지 않게됩니다.)

    이는 대부분의 정상적인 검색엔진에서 마찬가지이며, 위 안내처럼 인터넷에는 robots.txt의 여부와 상관없이 크롤링하는 로봇이 많기 때문에 정상 검색엔진은 robots.txt로 허용해준다고 생각하고 값을 넣어야합니다.

     

  • 접근 '허용됨' 상태인데 색인되지 않아요..?

    검색엔진은 검색결과에 보여줄 내용을 색인합니다.

    사이트에 색인할 내용은 자체 기준(알고리즘)에 따라 결정되며, 사이트를 만든지 얼마 안된 경우 판단을 위해 색인이 늦어질 수 있습니다.

오류제보 / 기능제안   글 작성하러가기