Início Projeto Bestiário Observatório Glossário Recursos
200 Palavras-chave
2000–2012 Período analisado
2.600 Consultas feitas
23.498 Registos validados
Seleciona um ano para ver o que estava a acontecer
Canais de circulaçãoCanal de circulação é o tipo de plataforma onde a página foi publicada. Cada canal representa uma forma diferente de produzir ou consumir informação sobre fraude digital: a imprensa noticiou, os blogues denunciaram, os fóruns partilharam experiências, as entidades institucionais alertaram, os classificados foram habitat de burlas transacionais, e os portais generalistas (SAPO, Clix, AEIOU) serviram como ponto de entrada para muitos utilizadores. A categoria "Outro site .pt" agrupa domínios .pt que não se enquadram nas anteriores: inclui, por exemplo, sites especializados em segurança informática como pcguia.pt e whitehat.pt, sites de empresas, páginas pessoais, serviços online e qualquer outra presença web portuguesa não categorizada. É a categoria com maior peso em todos os anos porque agrega a diversidade da web portuguesa. registos por tipo de plataforma
Palavras-chave com mais registos — clica para explorar
As palavras do ano

198 das 200 palavras-chave obtiveram pelo menos um resultado em domínios .pt. O número junto de cada expressão é o total de registosNúmero de páginas do corpus (23.498 ao total) em que esta expressão foi a palavra-chave da consulta que a identificou. Uma mesma página conta uma vez por expressão. O número não indica quantas vezes a expressão aparece no texto, mas quantas páginas do corpus lhe foram atribuídas. no corpus entre 2000 e 2012. Clica em qualquer expressão para ver a sua trajetória.

Registos por ano frequência anual no corpus .pt
Páginas reais do Arquivo.pt
Apenas páginas em domínio .pt, capturadas entre 2000 e 2012, com excerto em português e menção explícita a fraude.
Seleciona uma palavra-chave para ver páginas do arquivo.

Compara a trajetória de dois termos ao longo do tempo. Os valores são normalizados de 0 a 100% em relação ao máximo histórico de cada termo, o que permite comparar tendências entre expressões com volumes muito diferentes.

Primeiro termo
Segundo termo
Comparação índice normalizado 0–100% do máximo histórico de cada termo

Três conclusões retiradas diretamente dos dados. Cada uma é verificável nos separadores anteriores desta página.

Nota metodológica

O que é uma API. Uma API (Interface de Programação de Aplicações) é uma porta de entrada digital que permite a um programa pedir dados a outro de forma automática e estruturada. O Arquivo.pt disponibiliza uma API pública e gratuita que permite pesquisar o seu índice de páginas arquivadas por palavras-chave, intervalo de datas e domínio. Todos os dados deste observatório foram recolhidos através desta API, sem qualquer acesso especial ou autenticação. Endpoint usado: https://arquivo.pt/textsearch

Palavra-chave

Uma expressão de pesquisa usada para interrogar o arquivo. Pode ser curta e genérica (burla, phishing) ou longa e específica (recebi e-mail pedir dados banco). As 200 palavras-chave foram construídas com base no vocabulário documentado da internet portuguesa entre 2000 e 2012, incluindo variantes anteriores e posteriores ao Acordo Ortográfico de 1990 e termos coloquiais da época que uma pesquisa contemporânea não recuperaria. Foram consultados blogues, fóruns e imprensa do período para validar a linguagem usada.

Horizonte temporal

O período analisado: 2000 a 2012, treze anos. O limite inferior corresponde à chegada da ADSL e à generalização da internet doméstica em Portugal. O limite superior marca o fim do ciclo da Web 2.0, com a generalização do smartphone e das redes sociais modernas. Cada ano é tratado como uma unidade de análise independente.

Consulta

Uma pergunta feita à API do Arquivo.pt. Cada consulta combina uma palavra-chave, um ano civil completo e um máximo de 25 resultados. A API responde com a lista de páginas arquivadas que correspondem a essa combinação. Neste projeto foram feitas 200 × 13 = 2.600 consultas.

Expressão matemática do método
200 palavras-chave × 13 anos = 2.600 consultas
2.600 consultas × 25 resultados máx = 65.000 dados brutos máximos
65.000 máximos → 32.245 obtidos → 23.498 validados (.pt)
Corpus

O conjunto de registos validados que serve de base a toda a análise: 23.498 páginas portuguesas arquivadas, obtidas a partir de 32.245 entradas brutas depois de aplicados os critérios de inclusão e exclusão. O corpus é composto exclusivamente por domínios .pt ou páginas dirigidas a utilizadores portugueses, capturadas entre 2000 e 2012. Não é um inventário exaustivo da internet portuguesa do período: é uma amostra sistemática, estruturada pelas 200 palavras-chave, que permite analisar tendências com rigor comparável. O número que aparece junto a cada palavra-chave no painel de pesquisa é o total de registos desse corpus atribuídos a essa expressão específica.

Dados brutos e estimativas

O conjunto de todas as páginas devolvidas pelas 2.600 consultas, antes de qualquer filtragem: 32.245 entradas. Este número é inferior ao máximo teórico de 65.000 porque muitas consultas devolvem menos de 25 resultados, especialmente em anos com menor cobertura do arquivo (2000–2004) e para palavras-chave muito específicas. O campo estimated_nr_results da API é uma estimativa estatística do índice, como o contador de resultados de um motor de pesquisa: útil para comparar tendências, impreciso para totais absolutos.

O que é um registo

Uma entrada validada após filtragem. Não é um registo de crimes: é um vestígio arquivado. Cada registo corresponde a uma página que ficou preservada no Arquivo.pt sobre o fenómeno da fraude digital. Pode ser o texto de uma burla capturado antes de o site ser desativado, um fórum que a denunciou, uma notícia que a cobriu, um blogue que a testemunhou ou um alerta que a documentou. Páginas em língua inglesa ou sem contexto português foram excluídas pelos critérios abaixo.

1.Domínio .pt ou página dirigida a utilizadores portugueses
2.Data de captura entre 1 jan 2000 e 31 dez 2012
3.Excerto com pelo menos 60 caracteres em português
4.Menção explícita a fraude no título ou excerto
5.Mínimo de três palavras portuguesas comuns
6.URL único, sem duplicados da mesma página
Cobertura desigual e limitações

A cobertura do Arquivo.pt não era uniforme: mais esparsa entre 2000 e 2004, mais densa a partir de 2006. Um valor baixo num determinado ano pode refletir menor cobertura do arquivo e não necessariamente menor atividade de fraude. Os dados devem ser lidos como indicadores de tendência, não como inventários completos. Os zeros são dados válidos: confirmam ausência de registo, não necessariamente ausência do fenómeno.