Estatística: Intervalos de Confiança

Na prática da Engenharia e da Estatística, raramente conhecemos os parâmetros reais de uma população (como a média populacional μ\mu ou a variância σ2\sigma^2). O que possuímos são dados amostrais. Sendo assim, o Intervalo de Confiança (IC) surge como uma ferramenta para expressar a incerteza inerente a essa estimativa pontual.

O que é o Intervalo de Confiança?

Um Intervalo de Confiança é um intervalo numérico, calculado a partir de dados amostrais, que tem uma probabilidade específica (chamada de nível de confiança) de conter o valor real do parâmetro populacional desconhecido.

Diferente de uma estimativa pontual (como dizer que a média de altura é 1,75m), a estimativa intervalar admite o erro. Podemos expressar essa ideia usando a seguinte frase: “estamos 95% confiantes de que a média real está entre 1,72m e 1,78m”.

A formulação moderna do IC foi introduzida por Jerzy Neyman em 1937. Segundo Neyman (1937), o termo “confiança” não se refere à probabilidade de o parâmetro estar no intervalo após o cálculo, mas sim ao desempenho do procedimento estatístico em múltiplas repetições do experimento sob as mesmas condições.

Características fundamentais

Conforme Bussab e Morettin (2017), para que um intervalo de confiança seja considerado robusto, ele depende de três componentes principais:

  1. Estimativa Pontual: o valor central obtido da amostra (ex: média amostral x\bar{x}).
  2. Nível de Confiança (1α1 – \alpha): a probabilidade de que o método de construção do intervalo capture o parâmetro real. Os valores comuns são 90%, 95% e 99%.
  3. Margem de Erro ( EE ): a medida de precisão do intervalo, que depende do desvio padrão e do tamanho da amostra.

Matematicamente, para uma média populacional com variância conhecida, o IC é expresso como:

IC=x±zα/2(σn)IC = \bar{x} \pm z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right)

Onde:

  • x\bar{x} é a média amostral.
  • zα/2z_{\alpha/2} é o valor crítico da distribuição normal padrão.
  • σ\sigma é o desvio padrão populacional.
  • nn é o tamanho da amostra.

Benefícios e Trade-offs

Assim como tudo na vida, na computação e na estatística não existe “almoço grátis”. Triola (2017) enfatiza que, ao trabalharmos com ICs, enfrentamos um dilema e teremos que tomar uma decisão.

Se desejamos aumentar o nível de confiança (por exemplo, de 95% para 99%), o valor crítico zα/2z_{\alpha/2} aumentará. Consequentemente, o intervalo se tornará mais largo. Um intervalo muito largo é “seguro”, mas pouco informativo. Por exemplo, dizer que o tempo de resposta de um servidor está entre 1ms e 10 segundos é 100% seguro, mas inútil para otimização e uma análise mais confiável. Em outras palavras, temos que balancear a escolha entre maior confiança e menor precisão.

A única forma de aumentar a precisão (diminuir a largura do intervalo) sem sacrificar a confiança é aumentando o tamanho da amostra nn. Como nn está no denominador da raiz quadrada (n\sqrt{n}), para reduzir o erro pela metade, precisamos quadruplicar a amostra. Isso envolve custos operacionais, tempo e processamento. Ou seja, a escolha passa a ser o equilíbrio do tamanho da amostra (nn) e o custo.

A interpretação correta do resultado obtido com ICs

Conforme discutido exaustivamente por Moore, Notz e Fligner (2017), ao utilizarmos essa técnica estatística, é vital que não caiamos no erro comum de dizer: “Existe uma probabilidade de 95% de o parâmetro estar dentro deste intervalo específico”.

Uma vez que o intervalo foi calculado com dados fixos, o parâmetro ou está lá dentro, ou não está (probabilidade 0 ou 1). A interpretação correta, alinhada à escola frequentista defendida por Moore, Notz e Fligner (2017), é: “Se repetíssemos este experimento 100 vezes e calculássemos 100 intervalos, espera-se que 95 deles contenham o parâmetro real”.

Exemplo prático

Imagine que você está monitorando a latência de um banco de dados. Você coletou uma amostra de 100 consultas (n = 100) e obteve uma média de 50ms com um desvio padrão populacional conhecido de 10ms. Calcule o Intervalo de Confiança de 95% para a média de latência (z0.0251,96z_{0.025} \approx 1,96).

O objetivo é estimar a latência média (μ\mu) de um banco de dados com base numa amostra. Os dados que temos à disposição a partir do enunciado são:

  • Média amostral (x\bar{x}): 50ms
  • Desvio padrão populacional (σ\sigma): 10ms (variância conhecida)
  • Tamanho da amostra (nn): 100
  • Nível de confiança: 95% (α=0,05\alpha = 0,05)
  • Valor crítico (zα/2z_{\alpha/2}): 1,96 (valor padrão para 95% de confiança)

A fórmula do Intervalo de Confiança para a média com σ\sigma conhecido é:

IC=x±zα/2(σn)IC = \bar{x} \pm z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right)

Substituindo os valores que temos na equação, obteremos:

  1. Cálculo do erro padrão da média (E=(σn)E = \left( \frac{\sigma}{\sqrt{n}} \right)): 10100=1010=1\frac{10}{\sqrt{100}} = \frac{10}{10} = 1
  2. Cálculo da margem de erro ( zα/2×Ez_{\alpha/2} \times E ): 1,96×1=1,96ms1,96 \times 1 = 1,96ms
  3. Aplicando à média: 50±1,9650 \pm 1,96

Resultado: O Intervalo de Confiança de 95% é [48,04ms; 51,96ms]. A interpretação deste resultado é que estamos 95% confiantes de que o método utilizado capturou a média real de latência da população, e que ela se situa entre 48,04ms e 51,96ms.

Agora, se precisássemos que a margem de erro fosse de apenas 1ms (mantendo os 95% de confiança), qual deveria ser o novo tamanho da amostra nn? Vamos descobrir.

Para reduzir a margem de erro ( EE ) para apenas 1ms mantendo a confiança de 95%, isolamos nn na fórmula da margem de erro:

E=zα/2(σn)n=zα/2σEn=(zα/2σE)2E = z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right) \implies \sqrt{n} = \frac{z_{\alpha/2} \cdot \sigma}{E} \implies n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2

Substituindo os valores:

n=(1,96101)2=(19,6)2=384,16n = \left( \frac{1,96 \cdot 10}{1} \right)^2 = (19,6)^2 = 384,16

Como o tamanho da amostra deve ser um número inteiro, arredondamos sempre para cima para garantir a precisão mínima desejada. Logo, n=385n = 385 para a nova situação que buscamos analisar.

E o que isso nos diz sobre a viabilidade de sistemas de alta precisão? Bom, este simplório exemplo nos dá três coisas para se pensar:

  1. A Lei dos Rendimentos Decrescentes: note que para reduzir a margem de erro de 1,96ms para 1ms (uma redução de aproximadamente 49%), precisamos aumentar a amostra de 100 para 385 (um aumento de quase 400%). Isso demonstra que a precisão não escala linearmente com os dados; ela escala com o quadrado da redução desejada.
  2. Custo de Observabilidade: em sistemas de Big Data, quadruplicar a coleta de dados para ganhar metade da precisão pode significar custos proibitivos de armazenamento, processamento de rede e CPU.
  3. Trade-off para uma pesquisa ou um negócio: em muitos casos, uma precisão de 2ms (com n=100) é suficiente para decisões de negócio ou de pesquisa. A busca pela “precisão perfeita” pode ser um erro de engenharia se o custo de obtenção dessa precisão superar o benefício da informação.

Considerações finais

Neste artigo discutido o conceito e as principais características do Intervalo de Confiança. Da mesma forma que nos artigos anteriores sobre Estatística, não buscamos encerrar este assunto. Apenas descrevemos a “superfície” do assunto, focando mais na elaboração dos conceitos e na exemplificação computacional. Recomendamos consultar outras fontes de referência, onde esses conceitos são explorados com mais detalhes para aprofundar seus conhecimentos.

Obrigado pela leitura e bons estudos.

Referências

BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 9. ed. São Paulo: Saraiva, 2017.

MOORE, D. S.; NOTZ, W. I.; FLIGNER, M. A. A Estatística Básica e sua Prática. 7. ed. Rio de Janeiro: LTC, 2017.

NEYMAN, J. Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability. Philosophical Transactions of the Royal Society of London, Series A, Mathematical and Physical Sciences, v. 236, n. 767, p. 333-380, 1937.

TRIOLA, M. F. Introdução à Estatística. 12. ed. Rio de Janeiro: LTC, 2017.

Referências complementares

NARUHODO, Cientística & Podcast. Estatística Psicobio I 2025 #04 – Teorema Central do Limite e Intervalos de Confiança I. Disponível em: <https://www.youtube.com/live/SQOOrYn6QnI?si=b5QiUVhGMKtFbuLu>. Acesso em: 27 fev. 2026.

NARUHODO, Cientística & Podcast. Estatística Psicobio I 2025 #04 – Intervalos de Confiança II. Disponível em: <https://www.youtube.com/live/SrcnCIaOlQg>. Acesso em: 27 fev. 2026.