레이블이 robots.txt인 게시물을 표시합니다. 모든 게시물 표시
레이블이 robots.txt인 게시물을 표시합니다. 모든 게시물 표시

블로그 검색환경 설정

# 블로그 검색이 잘되기 위해 클롤러가 참고 하는 robots.txt 파일 추가
https://support.google.com/webmasters/answer/6062596?hl=ko
https://yoonbh2714.blogspot.com/robots.txt
# 다음 URL 에서 robots.txt 를 체크할 수 도 있다.
https://www.websiteplanet.com/ko/webtools/robots-txt/
# 모두 허용하는건(Allow: /) 관행상 명시하지 않는다고해서 뺐고
# full access 를 위해 Disallow: 후 아무것도 명시하지 않았다.
https://varvy.com/robottxt.html
User-agent: *
Disallow:

# 하지만 full access 를 위해 robots.txt 사용하지 않아도 된다.
# 사용하지 않으면 아래와 같이 자동 생성한다.
curl -L http://yoonbh2714.blogspot.com/robots.txt
User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Allow: /

Sitemap: https://yoonbh2714.blogspot.com/sitemap.xml

# adsense 가 적절한 광고 제공될 수 있도록 ads.txt 추가
# adsense 에서는 ads.txt 파일을 추가를 적극적으로 권하고 있고
# 없으면 수익에 심각한 문제을 줄 수 있다고 경고 알람이 뜬다.
https://support.google.com/adsense/answer/7532444?hl=ko&authuser=0
https://yoonbh2714.blogspot.com/ads.txt
# google.com : 광고 시스템 도메인 (필수)
# pub-9514982437850392 : 게시자 ID (필수)
# DIRECT : google 이 게시자를 직접 관리한다는 의미 (필수)
# f08c47fec0942fa0 : google.com 에 대한 인증서 권한 ID (옵션)
google.com, pub-9514982437850392, DIRECT, f08c47fec0942fa0

# blogger 에 ads.txt 파일을 생성했지만
# 몇달이 지나도 adsense 에서 아래 알람이 계속 뜨고 있다.
"[조치 필요] ads.txt를 사용하여 수입을 보호하세요."

# 이 이슈는 아직 원인도 해결도 되지 않았다.
https://support.google.com/blogger/thread/11375660?hl=en

웹서비스 robot.txt human.txt

웹서비스에서 web crawler 같은 로봇들의 활동을 제어하는 방안으로 robot.txt 을 루르 경로에 만들어 두고 사용한다.(권고 사항으로 강제되지는 않는다)

robot.txt 과 같은 방법으로 웹서비스에 기여한 사람들을 human.txt 파일로 만들어 두기도 한다.
예)