Especialista em Semalt em raspagem de dados de sites - Bots bons e ruins

A raspagem da Web existe há muito tempo e é considerada útil para webmasters, jornalistas, freelancers, programadores, não programadores, pesquisadores de marketing, acadêmicos e especialistas em mídias sociais. Existem dois tipos de bots: bons e maus. Os bons bots permitem que os mecanismos de pesquisa indexem o conteúdo da Web e recebem alta preferência dos especialistas do mercado e dos profissionais de marketing digital. Os bots ruins, por outro lado, são inúteis e visam prejudicar a classificação do mecanismo de busca de um site. A legalidade da raspagem na Web depende de que tipo de bots você usou.

Por exemplo, se você estiver usando os robôs ruins que obtêm o conteúdo de diferentes páginas da Web com a intenção de usá-lo ilegalmente, a raspagem da Web pode ser prejudicial. Mas se você usar os bons bots e evitar as atividades prejudiciais, incluindo ataques de negação de serviço, fraudes on-line, estratégias competitivas de mineração de dados, roubos de dados, invasões de contas, varredura não autorizada de vulnerabilidades, fraudes em anúncios digitais e roubo de propriedades intelectuais, o procedimento de raspagem na web é bom e útil para expandir seus negócios na Internet.

Infelizmente, a maioria dos freelancers e startups adora robôs ruins porque é uma maneira barata, poderosa e abrangente de coletar dados sem a necessidade de uma parceria. As grandes empresas, no entanto, usam os raspadores legais da Web para obter ganhos e não querem arruinar sua reputação na Internet com raspadores ilegais. As opiniões gerais sobre a legalidade do scraping na web parecem não ter importância, porque nos últimos meses ficou claro que os sistemas judiciais federais estão reprimindo cada vez mais estratégias ilegais de scraping na web.

A raspagem na Web começou como um processo ilegal em 2000, quando o uso de bots e aranhas para raspar sites era considerado absurdo. Poucas práticas foram adaptadas para impedir que esse procedimento se espalhe na internet até 2010. O eBay entrou com uma ação liminar contra o Bidder's Edge, alegando que o uso de bots no site violou as leis de invasão de propriedade da Chattels. O tribunal logo concedeu as liminares porque os usuários tinham que concordar com os termos e condições do site e um grande número de bots foram desativados, pois poderiam ser destrutivos para os computadores do eBay. O processo logo foi resolvido fora do tribunal, e o eBay impediu todo mundo de usar bots para raspagem na web, independentemente de serem bons ou ruins.

Em 2001, uma agência de viagens processou os concorrentes que extraíram seu conteúdo do site com a ajuda de aranhas e bots ruins. Os juízes novamente tomaram medidas contra o crime e favoreceram as vítimas, dizendo que tanto a raspagem da Web quanto o uso de bots poderiam prejudicar vários negócios online.

Atualmente, para agregação acadêmica, privada e de informações, muitas pessoas confiam em procedimentos justos de raspagem da Web, e muitas ferramentas de raspagem da Web foram desenvolvidas nesse sentido. Agora, as autoridades dizem que nem todas essas ferramentas são confiáveis, mas as que vêm em versões pagas ou premium são melhores do que os raspadores da web gratuitos .

Em 2016, o Congresso aprovou a primeira legislação para direcionar os bots ruins e favorecer os bons. Foi criada a Lei das Melhores Vendas de Bilhetes Online (BOTS), que proibia o uso de software ilegal que pudesse atingir os sites, danificando as fileiras de seus mecanismos de busca e destruindo seus negócios. Há questões de justiça. Por exemplo, o LinkedIn gastou muito dinheiro com as ferramentas que bloqueiam ou eliminam bots ruins e incentivam bons bots. Como os tribunais tentam decidir a legalidade da raspagem na web, as empresas estão tendo seus dados roubados.