ID
IDSP
Instituto DS de Pesquisas

Metodologia

Versão 1.0 — Abril/2026

§1Introdução

Esta é a nota técnica metodológica dos índices publicados pelo Instituto DS de Pesquisas (IDSP). Documenta as decisões estatísticas e operacionais aplicadas no cálculo do IDS-P (Índice DS de Preços Promocionais) e do IDS-GP (Índice DS de Guerra Promocional).

Destina-se a jornalistas, pesquisadores, varejistas e analistas que precisem reproduzir, auditar ou contextualizar os números publicados. A metodologia segue padrões aceitos pela academia e por institutos de referência (IBGE, DIEESE, FIPE), adaptados à natureza dos dados promocionais do varejo brasileiro.

§2Princípios

  • Transparência — toda metodologia é pública, versionada e referenciável.
  • Reprodutibilidade — qualquer pessoa com acesso aos dados agregados publicados chega aos mesmos resultados.
  • Declaração de viés — limitações da amostra são sempre declaradas, antes mesmo que sejam questionadas.
  • Rigor — métodos estatísticos com suporte na literatura, justificados quando se afastam do padrão.
  • Honestidade — só publicamos cortes em que temos confiança estatística.

§3Fonte dos dados

Os dados são de captura própria contínua, atualizados diariamente. A amostra cobre principalmente o pequeno e médio varejo brasileiro nas categorias de supermercado, farmácia, petshop e material de construção. Cada registro corresponde a um produto promovido por uma empresa em uma data, com preço original e preço promocional declarados.

§4Universo amostral

Critérios atuais (versão 1.0):

  • Inclusão: empresas varejistas brasileiras com atividade promocional registrada, atualmente em operação.
  • Exclusão: contas de teste, duplicatas técnicas, integrações automatizadas e empresas internas da plataforma de coleta.
  • Distribuidores: registros de redes distribuidoras (que publicam encartes em nome de múltiplos varejistas) são identificados e classificados separadamente para evitar dupla contagem.

Tamanho atual da amostra ativa: 1.400+ empresas em 26 estados brasileiros.

§5Estrutura do IDS-P

O IDS-P é uma cesta de 27 produtos representativos do consumo doméstico brasileiro, organizados em seis grupos:

  • Mercearia (8): arroz, feijão, açúcar, óleo, café, macarrão, farinha de trigo, sal
  • Hortifruti (7): batata, tomate, banana, cebola, cenoura, maçã, laranja
  • Proteína (5): coxão mole, acém, carne moída, coxa e sobrecoxa, ovos
  • Laticínios (2): leite, margarina
  • Bebidas (1): refrigerante cola
  • Higiene e limpeza (4): sabão em pó, detergente, papel higiênico, sabonete, creme dental

A escolha de 27 itens busca um equilíbrio entre representatividade do consumo e robustez estatística por item. A lista parte da cesta básica histórica brasileira (DIEESE, 13 itens) e é estendida com produtos de alto giro no varejo promocional moderno.

O IDS-P difere fundamentalmente do IPCA e da Cesta Básica: trabalhamos com preços promocionais publicados em encartes e materiais de venda — não com preços de gôndola coletados presencialmente. Isso significa que o IDS-P captura a oferta promocional do mercado, não o preço médio efetivamente pago.

§6Tratamento dos dados

6.1 Normalização de produtos (SKU canônico)

Os produtos são publicados em encartes com nomes livres, frequentemente com variações ("Coxão Mole", "Coxão Mole Bovino", "Coxão Mole 1kg Resfriado"). Para o cálculo do índice, aplicamos um mapeamento determinístico de SKU canônico que agrupa essas variações em um único item de referência.

O mapeamento é revisado e versionado. Mudanças no conjunto de regras geram nova versão do índice (ver Seção 15).

6.2 Normalização de marcas

Marcas também sofrem variações de grafia ("Ype", "YPÊ", "Ypê"). Aplicamos um mapeamento canônico de marcas, padronizando para o nome oficial da empresa fabricante. Esse processamento é fundamental para o IDS-GP, que mede competição por marca.

6.3 Filtros de qualidade

São descartados antes do cálculo:

  • Registros com nome de produto inválido (vazio ou com menos de 3 caracteres)
  • Registros com preço promocional ausente, zero ou negativo
  • Registros sem unidade de medida identificável (impossibilitam comparação por unidade)
  • Registros associados a contas excluídas (ver Seção 4)

§7Deduplicação

Uma mesma empresa pode publicar o mesmo preço em múltiplos veículos no mesmo dia (encarte digital, material para WhatsApp, post de rede social). Para evitar superestimar o peso de cada anunciante, aplicamos deduplicação por (empresa, preço, data): o mesmo preço da mesma empresa no mesmo dia conta como uma única observação, independentemente de quantas vezes apareceu.

Esse tratamento é aplicado no momento do cálculo — os dados brutos preservam todos os registros originais para auditoria.

§8Tratamento de outliers (IQR)

Para cada combinação de (produto, estado, período), aplicamos o método do Intervalo Interquartil (IQR):

  1. Calcula-se Q1 (percentil 25) e Q3 (percentil 75) dos preços
  2. IQR = Q3 − Q1
  3. Limite inferior = max(0, Q1 − 1,5 × IQR)
  4. Limite superior = Q3 + 1,5 × IQR
  5. Preços fora dos limites são descartados

Optamos por IQR em vez de desvio padrão porque distribuições de preços promocionais não são normais — apresentam cauda longa à direita (alguns preços muito altos puxariam a média) e contêm erros pontuais (digitação, OCR). O IQR é robusto a esses casos, é o método padrão recomendado pela literatura para detecção de outliers em distribuições não-paramétricas (Tukey, 1977) e é usado por exemplo na construção de índices de preços de imóveis pela National Association of Realtors (EUA).

§9Métrica principal: mediana

Adotamos a mediana como métrica central do IDS-P, em vez da média aritmética ou geométrica. Justificativas:

  • A mediana é robusta a outliers residuais que sobreviveram ao filtro IQR, garantindo estabilidade entre publicações.
  • Em distribuições assimétricas (típicas de preços de varejo, com cauda longa à direita), a mediana é mais representativa do "preço típico" encontrado pelo consumidor do que a média.
  • A média aritmética seria sensível a marcas premium (ex: Heineken puxa para cima a média de cerveja) que aparecem no encarte mas não são o preço modal.
  • A média geométrica é tradicionalmente usada para agregar variações percentuais entre itens (como faz o IPCA), não para combinar diferentes marcas/lojas de um mesmo item.

Publicamos como métricas secundárias: faixa Q1–Q3 (intervalo interquartil), N (tamanho da amostra) e número de empresas distintas que contribuíram para cada corte.

§10Cálculo do valor da cesta

  1. Para cada item da cesta, em cada estado, em cada mês: calcula-se a mediana do preço promocional após filtros (Seções 6, 7 e 8).
  2. O valor da cesta estadual é a soma das medianas dos 27 itens naquele estado naquele mês.
  3. O valor da cesta nacional é calculado da mesma forma, considerando todas as observações nacionais no mês — não é uma média ponderada das cestas estaduais.

Observação: itens que não atinjam o tamanho mínimo de amostra em um corte (ver Seção 11) são marcados como "não publicado" nesse corte. A cesta agregada apenas é publicada quando todos os 27 itens têm dados válidos no corte considerado.

§11Tamanho mínimo de amostra

Cortes com menos de 30 observações deduplicadas não são publicados. A escolha de N ≥ 30 segue a aproximação clássica do Teorema Central do Limite para inferência sobre tendência central em amostras finitas — abaixo disso, a mediana se torna instável e pouco representativa.

O tamanho da amostra (N) é sempre publicado junto da estatística, permitindo que o leitor avalie a confiabilidade do número. Cortes com 30 ≤ N < 100 são marcados como "cobertura limitada".

§12Cobertura geográfica

Cada registro tem sua localização determinada por uma cascata de critérios:

  1. Localização declarada pela empresa (cidade, UF, CEP) — quando disponível
  2. Localização da loja específica associada ao registro
  3. Inferência por DDD do telefone de contato, mapeando para a UF

Atualmente cobrimos 26 estados brasileiros (todas as UFs exceto algumas com baixa atividade). A granularidade municipal é limitada — para a maioria dos registros temos UF mas não cidade. Por isso o IDS-P é publicado em recorte estadual e nacional, sem detalhamento por município (essa é uma limitação reconhecida — ver Seção 17).

§13Frequência e janela de publicação

O IDS-P é publicado mensalmente, considerando o mês calendário fechado anterior. Edições aparecem entre o 5º e o 10º dia útil do mês seguinte ao período de referência.

O IDS-GP é publicado mensalmente para empresas e marcas com cobertura suficiente, e em recortes especiais (semanais ou pontuais) em estudos.

§14Declaração de viés da amostra

A amostra do IDSP não é probabilística — não foi desenhada estatisticamente para representar a totalidade do varejo brasileiro. Trata-se de uma amostra de conveniência composta predominantemente por pequeno e médio varejo brasileiro, em todas as regiões do país.

Especificamente:

  • Grandes redes nacionais (como Carrefour, GPA, Assaí) não fazem parte da amostra principal.
  • A cobertura geográfica é desigual: Sudeste, Centro-Oeste e Sul apresentam mais empresas ativas que Norte e parte do Nordeste.
  • Os resultados refletem o comportamento promocional do varejo independente e regional, não do varejo nacional consolidado.

Essa declaração deve acompanhar qualquer citação dos números do IDS-P em mídia ou pesquisa.

§15Versionamento

A metodologia é versionada (atualmente v1.0). Mudanças significativas — como inclusão/exclusão de itens da cesta, alteração de regras de canonização, ou mudança no método estatístico — geram nova versão (v1.1, v2.0).

Séries históricas anteriores são preservadas. Não recalculamos retroativamente sem aviso. Quando uma nova versão entra em vigor, ela é publicada em paralelo com a versão anterior por pelo menos seis meses, permitindo comparação.

§16Reprodutibilidade

Para cada publicação mensal, disponibilizamos:

  • CSV com a mediana, Q1, Q3 e N de cada item, em cada corte (estado e nacional)
  • Esta nota técnica metodológica vigente
  • Histórico completo da série desde o início da publicação oficial

Pesquisadores acadêmicos interessados em validação metodológica detalhada podem solicitar acesso a dados agregados intermediários através do contato institucional.

§17Limitações conhecidas

  • Preço promocional ≠ preço médio pago: o IDS-P mede o que é anunciado em encarte, não o que é efetivamente vendido. Há sobreposição relevante, mas não são equivalentes.
  • Amostra não probabilística: ver Seção 14.
  • Granularidade municipal limitada: a maioria dos registros não tem cidade identificada com precisão; o índice é primariamente estadual e nacional.
  • Sazonalidade não é dessazonalizada: na versão atual, publicamos os valores nominais do mês. Não aplicamos ajuste sazonal.
  • Inflação não é a foco principal: o IDS-P mede preço promocional; comparações de variação devem considerar que promoções têm dinâmica própria, distinta da inflação geral medida pelo IPCA.

§18Referências bibliográficas

  • DIEESE. Metodologia da Pesquisa Nacional da Cesta Básica de Alimentos. 2025. link
  • IBGE. Sistema Nacional de Índices de Preços ao Consumidor — Métodos de Cálculo. 7ª ed. link
  • Hitsch, G. J.; Hortacsu, A.; Lin, X. Prices and Promotions in U.S. Retail Markets: Evidence from Big Data. NBER Working Paper No. 26306, 2019. link
  • Tukey, J. W. Exploratory Data Analysis. Addison-Wesley, 1977. (Definição original do método IQR para detecção de outliers.)
  • U.S. Bureau of Labor Statistics. Consumer Price Index: Concepts and Methods. link

Dúvidas técnicas, propostas de validação cruzada ou colaboração acadêmica: fale com a equipe.