Падручнік з Semalt Аб тым, як саскрыць найбольш вядомыя сайты з Вікіпедыі

Дынамічныя вэб-сайты выкарыстоўваюць файлы robots.txt для рэгулявання і кантролю любых выскрабанняў. Гэтыя сайты абаронены ўмовамі і палітыкай вылучэння вэб- сайтаў, каб прадухіліць блогераў і маркетолагаў не саскрабляць свае сайты. Для пачаткоўцаў вэб-выскрабанне - гэта працэс збору дадзеных з вэб-сайтаў і вэб-старонак і захаванне, а затым іх захаванне ў чытаных фарматах.

Атрыманне карысных дадзеных з дынамічных сайтаў можа стаць нязручнай задачай. Каб спрасціць працэс здабывання дадзеных, вэб-майстры выкарыстоўваюць робатаў, каб як мага хутчэй атрымаць неабходную інфармацыю. Дынамічныя сайты складаюцца з "дазволу" і "забараніць" дырэктывы, якія паведамляюць робатам, дзе выскрабанне дазволена, а дзе няма.

Выскрабанне самых вядомых сайтаў з Вікіпедыі

Гэты падручнік ахоплівае тэматычнае даследаванне, праведзенае Брэнданам Бейлі на выскрабанне сайтаў з Інтэрнэту. Брэндан пачаў са збору спісу найбольш моцных сайтаў з Вікіпедыі. Асноўнай мэтай Брэндана было вызначыць сайты, адкрытыя для вымання дадзеных у Інтэрнэце, на аснове правілаў robot.txt. Калі вы збіраецеся выскрабаць сайт, падумайце, каб наведаць умовы прадастаўлення сайта, каб пазбегнуць парушэння аўтарскіх правоў.

Правілы выскрабання дынамічных сайтаў

З дапамогай інструментаў для вымання дадзеных у Інтэрнэце, выскрабанне сайта - гэта проста клік. Падрабязны аналіз таго, як Брэндан Бейлі класіфікаваў сайты Вікіпедыі і якія крытэрыі ён выкарыстаў, апісаны ніжэй:

Змяшаны

Паводле тэматычнага даследавання Брэндана, большасць папулярных сайтаў можна згрупаваць як змешаныя. На кругавым дыяграме сайты з сумессю правілаў складаюць 69%. Google robots.txt - выдатны прыклад змешанага robots.txt.

Поўнае дазволіць

З іншага боку, поўны дазвол складае 8%. У гэтым кантэксце "Дазволіць поўнасцю" азначае, што файл robots.txt дае аўтаматызаваны доступ да праграм, каб выскрабаць увесь сайт. SoundCloud - лепшы прыклад. Іншыя прыклады сайтаў поўнага дазволу ўключаюць:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

Не ўсталяваны

Веб-сайты з "Не ўсталявана" складаюць 11% ад агульнай колькасці прадстаўленых на графіцы. Не ўсталяваць азначае наступныя дзве рэчы: альбо на сайтах адсутнічае файл robots.txt, альбо на сайтах адсутнічаюць правілы для "User-Agent". Прыклады сайтаў, на якіх файл robots.txt "не ўсталяваны", ўключаюць:

  • Live.com
  • Jd.com
  • Cnzz.com

Поўная забарона

Поўныя сайты "Забараніць" забараняюць аўтаматызаваным праграмам выдаляць сайты. Linked In - выдатны прыклад поўных сайтаў забараніць. Іншыя прыклады поўных сайтаў забараніць:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

Інтэрнэт-выскрабанне - лепшае рашэнне для атрымання дадзеных. Аднак выскрабанне некаторых дынамічных вэб-сайтаў можа прывесці вас да вялікіх праблем. Гэты падручнік дапаможа вам даведацца больш пра файл robots.txt і прадухіліць праблемы, якія могуць узнікнуць у будучыні.

mass gmail