#User-agent: Mediapartners-Google # робот Adsense (излишне?)
#Disallow: # можно индексить всё, т.е., показывать рекламу на любых страницах, КРОМЕ заблокированных ниже
User-Agent: * # для ВСЕХ ботов
# не индексить все внешнесистемные папки и файлы (подтвердители авторства и пр.):
Disallow: /forum-nonsafety/ # нет больше нигде
Disallow: /gbook-unsafety/ # нет больше нигде (в sig - gbook)
Disallow: /.proclimit_5fcf88f526527c336421841b3fb33596/ # логи (нет в psl, pn, pie; в slo и sig - другие [там большие *.log])
Disallow: /1ea489eaf9d04fa8beb4f4d4a772490f/ # ? (только здесь и в pie)
Disallow: /10a60347a222fc6982311d1e51c40d22/ # ? (везде одинаковый)
Disallow: /mainlink/ # [php, sec, большие dat!]
Disallow: /wmail_ff52a9e2e1a4d512.html
Disallow: /yandex_49fb504d3275467b.html
Disallow: /yandex_8d454ac7e64075a9.html # зачем второй Яндекс?
Disallow: /mLUqIQozn_fw0vuAQCLHzySSLns.html # Alexa
Disallow: /BingSiteAuth.xml
Disallow: /openstat_9d65f62f0c334b19bb4605233227a74f70eed809.txt # одинаковый везде; нет в sig [+ ads.txt]
# не индексить служебные файлы хостинга и сервисов
Disallow: /*/*.dat # в /mainlink/
Disallow: /*/*.log
Disallow: /*/*.php # почему только здесь (5 файлов в корне) и в sig
# не индексить некоторые свои папки и файлы:
Disallow: /*/*.rar # случайный (а *.zip можно?)
# (почему здесь закоментил?)
#Disallow: /*/_shtml/
#Disallow: /*/*.shtml
#Disallow: /*/_images/
Disallow: /*/_djvu/ # может и файл прописать?
Disallow: /*/_pdf-img/ # PDF-картинки (только здесь, в sig и slo)
#Disallow: /*/_video/ # (на будущее)
#Disallow: /*/*.avi
Disallow: /*/_xls/ # потом нужно открыть для G+Y
Disallow: /*/*.xls*
Disallow: /*/? # запрет индексации динамических страниц (в т.ч. версий для печати и троян-страниц)
Disallow: /*/*? # динамические страницы (в т.ч. версий для печати и троянских страниц)
Disallow: /*?print* # версии для печати ?print (еще раз - когда будут)
Disallow: /*/*_old/ # случайные _old (но корневую /old/ в Lex индексировать нужно!)
Disallow: /*/*etc/ # случайные _etc, __etc (и etc ?)
Disallow: *.swf ## запрет файлов с расширением .swf (однажды залетал флеш-плеер [!?] туда)
#Disallow: /err404.html #ЗАЧЕМ отключал?
#сначала отключить, ибо не все роботы эти 2 поймут
Disallow: /sitemap-image.xml
Disallow: /rss-turbo.xml
# что индексить всем поисковикам
Allow: /sitemap-main.xml # (а умеют ли все этот)
Allow: /sitemap.xml
Allow: /*/sitemap.xml
Allow: /rss.xml
# основное зеркало и карты сайта (кроме картиночной)
Sitemap: https://www.lexicons.ru/sitemap.xml
Sitemap: https://www.lexicons.ru/sitemap-main.xml
Sitemap: https://www.lexicons.ru/extinct/sitemap.xml
Sitemap: https://www.lexicons.ru/model/sitemap.xml
Sitemap: https://www.lexicons.ru/modern/sitemap.xml
Sitemap: https://www.lexicons.ru/old/sitemap.xml
Sitemap: https://www.lexicons.ru/proto/sitemap.xml
#Crawl-delay: 1 # может снизить нагрузку до 1 сек на 1 запрос?
# Гугл попросил открыть /_css/ и /_js/ (и ещё кое-что может)
User-agent: Googlebot
Allow: /sitemap-image.xml
Sitemap: https://www.lexicons.ru/sitemap-image.xml
Allow: /*/_shtml/
Allow: /*/*.shtm
Allow: /*/_css/
Allow: *.css
Allow: /*/_js/
Allow: *.js
Allow: /*/_xls/
Allow: /*/*.xls
Allow: /*/_pdf/
Allow: /*/*.pdf
# этих 3 строк не было, а это главное, чтобы не засиралось!
Disallow: /*/?
Disallow: /*/*=
Disallow: /*/*print
# не индексить служебные файлы хостинга и сервисов (тоже не было)
Disallow: /*/*.dat
Disallow: /*/*.log
Disallow: /*/*.php
# Яша вроде тоже научился дизайн серфить (но сайтмап картинок не понимает, как и мультиязычную карту)
User-agent: Yandex
Allow: /*/_shtml/
Allow: /*/*.shtm
Allow: /*/_css/
Allow: *.css
Allow: /*/_js/
Allow: *.js
Allow: /*/_xls/
Allow: /*/*.xls
# этих 3 строк не было, а это главное, чтобы не засиралось!
Disallow: /*/?
Disallow: /*/*=
Disallow: /*/*print
# не индексить служебные файлы хостинга и сервисов (тоже не было)
Disallow: /*/*.dat
Disallow: /*/*.log
Disallow: /*/*.php
Host: https://www.lexicons.ru
Disallow: /sitemap-image.xml
Allow: /sitemap-main.xml # Яша это понимает?
Allow: /rss-turbo.xml
# И еще раз (точнее и для надежности) - указать каждому картиноботу обоих поисковиков
User-agent: Googlebot-Image
Allow: /*/_images/
User-agent: YandexImages
Allow: /*/_images/
User-agent: Mediapartners-Google # робот Adsense (здесь не было; возможно, излишне)
#Disallow: # можно индексить всё, т.е., показывать рекламу на любых страницах, КРОМЕ заблокированных ниже
Allow: /ads.txt # от Гоши (а что это??)
#Allow: /*/*.*htm$
#Allow: /*/*.*html$
Allow: /*/*.*htm
Allow: /*/*.*html