Clique Aqui Para Perder —
Arquivo.pt 2000–2012
Entre 2000 e 2012, a internet portuguesa produziu vestígios de esquemas, fraudes e burlas: o texto da própria burla quando o arquivo a capturou antes de ser desativado, o fórum que a denunciou, a notícia que a cobriu, o blogue que a testemunhou, o alerta que a documentou.
Foram usadas 200 palavras-chave para interrogar o arquivo ao longo de 13 anos, resultando em 2.600 consultas e 23.498 registos validados em domínios portugueses. Os gráficos mostram como a linguagem da fraude evoluiu, que canais usou e que padrões persistiram ou desapareceram.
198 das 200 palavras-chave obtiveram pelo menos um resultado em domínios .pt. O número junto de cada expressão é o total de registosNúmero de páginas do corpus (23.498 ao total) em que esta expressão foi a palavra-chave da consulta que a identificou. Uma mesma página conta uma vez por expressão. O número não indica quantas vezes a expressão aparece no texto, mas quantas páginas do corpus lhe foram atribuídas. no corpus entre 2000 e 2012. Clica em qualquer expressão para ver a sua trajetória.
Compara a trajetória de dois termos ao longo do tempo. Os valores são normalizados de 0 a 100% em relação ao máximo histórico de cada termo, o que permite comparar tendências entre expressões com volumes muito diferentes.
Três conclusões retiradas diretamente dos dados. Cada uma é verificável nos separadores anteriores desta página.
O que é uma API. Uma API (Interface de Programação de Aplicações) é uma porta de entrada digital que permite a um programa pedir dados a outro de forma automática e estruturada. O Arquivo.pt disponibiliza uma API pública e gratuita que permite pesquisar o seu índice de páginas arquivadas por palavras-chave, intervalo de datas e domínio. Todos os dados deste observatório foram recolhidos através desta API, sem qualquer acesso especial ou autenticação. Endpoint usado: https://arquivo.pt/textsearch
Uma expressão de pesquisa usada para interrogar o arquivo. Pode ser curta e genérica (burla, phishing) ou longa e específica (recebi e-mail pedir dados banco). As 200 palavras-chave foram construídas com base no vocabulário documentado da internet portuguesa entre 2000 e 2012, incluindo variantes anteriores e posteriores ao Acordo Ortográfico de 1990 e termos coloquiais da época que uma pesquisa contemporânea não recuperaria. Foram consultados blogues, fóruns e imprensa do período para validar a linguagem usada.
O período analisado: 2000 a 2012, treze anos. O limite inferior corresponde à chegada da ADSL e à generalização da internet doméstica em Portugal. O limite superior marca o fim do ciclo da Web 2.0, com a generalização do smartphone e das redes sociais modernas. Cada ano é tratado como uma unidade de análise independente.
Uma pergunta feita à API do Arquivo.pt. Cada consulta combina uma palavra-chave, um ano civil completo e um máximo de 25 resultados. A API responde com a lista de páginas arquivadas que correspondem a essa combinação. Neste projeto foram feitas 200 × 13 = 2.600 consultas.
200 palavras-chave × 13 anos = 2.600 consultas2.600 consultas × 25 resultados máx = 65.000 dados brutos máximos65.000 máximos → 32.245 obtidos → 23.498 validados (.pt)
O conjunto de registos validados que serve de base a toda a análise: 23.498 páginas portuguesas arquivadas, obtidas a partir de 32.245 entradas brutas depois de aplicados os critérios de inclusão e exclusão. O corpus é composto exclusivamente por domínios .pt ou páginas dirigidas a utilizadores portugueses, capturadas entre 2000 e 2012. Não é um inventário exaustivo da internet portuguesa do período: é uma amostra sistemática, estruturada pelas 200 palavras-chave, que permite analisar tendências com rigor comparável. O número que aparece junto a cada palavra-chave no painel de pesquisa é o total de registos desse corpus atribuídos a essa expressão específica.
O conjunto de todas as páginas devolvidas pelas 2.600 consultas, antes de qualquer filtragem: 32.245 entradas. Este número é inferior ao máximo teórico de 65.000 porque muitas consultas devolvem menos de 25 resultados, especialmente em anos com menor cobertura do arquivo (2000–2004) e para palavras-chave muito específicas. O campo estimated_nr_results da API é uma estimativa estatística do índice, como o contador de resultados de um motor de pesquisa: útil para comparar tendências, impreciso para totais absolutos.
Uma entrada validada após filtragem. Não é um registo de crimes: é um vestígio arquivado. Cada registo corresponde a uma página que ficou preservada no Arquivo.pt sobre o fenómeno da fraude digital. Pode ser o texto de uma burla capturado antes de o site ser desativado, um fórum que a denunciou, uma notícia que a cobriu, um blogue que a testemunhou ou um alerta que a documentou. Páginas em língua inglesa ou sem contexto português foram excluídas pelos critérios abaixo.
A cobertura do Arquivo.pt não era uniforme: mais esparsa entre 2000 e 2004, mais densa a partir de 2006. Um valor baixo num determinado ano pode refletir menor cobertura do arquivo e não necessariamente menor atividade de fraude. Os dados devem ser lidos como indicadores de tendência, não como inventários completos. Os zeros são dados válidos: confirmam ausência de registo, não necessariamente ausência do fenómeno.