Reliability HotWire

Edição 40, Julho 2008

Conceitos de Confiabilidade

Como saber se o ajuste da sua distribuição simulada está adequado? 

Depois de ajustar um modelo de distribuição a um conjunto de dados, quando realizamos uma análise de dados de vida, estamos interessados em diagnosticar o ajuste do modelo ou comparar o ajuste de distribuições diferentes. Além do conhecimento de engenharia que sempre deveria administrar a escolha de um modelo de distribuição, há muitas ferramentas estatísticas que podem ajudá-lo a decidir se um modelo de distribuição é, ou não é, uma escolha boa de um ponto de vista estatístico. Estas ferramentas também podem ser usadas para comparar o ajuste de distribuições diferentes. Este artigo apresenta um levantamento de várias ferramentas estatísticas disponíveis no Weibull++ que pode ser usado para avaliar o ajuste de um modelo de distribuição e compará-lo a outras distribuições.

Para o restante deste artigo, usaremos os seguintes conjuntos de dados para explicar os diferentes modos de calcular o ajuste de uma ou múltiplas distribuições. Para comparações, usaremos como exemplo, a distribuição de Weibull e a distribuição exponencial. (Note, porém, que o conceito pode ser usado para comparar mais de duas distribuições).

Tabela 1: Exemplo de conjunto de dados

Failure Times
43
68
74
77
80
91
99
103
103
166

Gráficos de Probabilidades

Plotar a probabilidade é um método gráfico que permite uma avaliação visual do ajuste do modelo. Quando os parâmetros do modelo forem calculados, a probabilidade pode ser plotada. As próximas figuras mostram uma comparação do gráfico de probabilidade de duas escolhas de distribuições que usam o mesmo conjunto de dados.


 

Figura 1: Comparando as probabilidades plotadas de duas distribuições usando o mesmo conjunto de dados

Os gráficos mostram que a distribuição de Weibull se ajusta melhor aos dados, do que a distribuição exponencial.

Nota: Este método pode ser utilizado se o Parâmetro de Estimação de Mínimos Quadrados (Grau de Regressão) for selecionado  para estimar os parâmetros da distribuição. Não deve ser usado se o MLE (Máxima Estimação de Verossimilhança), método de estimativa do parâmetro, foi utilizado para se ajustarem ao modelo de distribuição. Apesar de ser uma prática comum para plotar as soluções MLE juntamente com níveis intermediários (ou seja, pontos são traçados, de acordo com a linha de nível intermediário concordando com as soluções MLE), isto não é completamente representativo. O método MLE é realmente independente de qualquer tipo de hierarquia. Por esta razão, a solução MLE muitas vezes não aparece para monitorar os dados sobre o gráfico de probabilidade . Isto é perfeitamente aceitável, uma vez que os dois métodos são independentes, um do outro, e de modo algum indica que a solução está errada.

Coeficiente de Correlação

O coeficiente de correlação, geralmente denotado por ρ (Rho), é uma medida de quão bem o modelo de regressão linear (a linha de probabilidade) se ajusta aos dados. No caso da análise de dados de vida, que é uma medida da intensidade da relação linear (correlação) entre os níveis intermediários dos dados. A população de coeficiente de correlação é definida como se segue:
 


Onde
σxy é a covariância de x (tempo até falha) e y (nível intermediário), σx é o desvio padrão de x, e σy é o desvio-padrão de y.

O avaliador de ρ é a amostra do coeficiente de correlação, dada por:

O intervalo de  é -1 1.


Quanto mais próximo o valor de
 está de 1 ou de -1 (o mais próximo do valor absoluto é 1), melhor é o ajuste linear. Note que +1 indica um ajuste perfeito (ou seja, os valores emparelhados (xi, yi) situam-se sobre uma linha reta), com uma inclinação positiva, enquanto -1 indica um ajuste perfeito com uma inclinação negativa. Um coeficiente de correlação de valor zero indicaria que os dados estão dispersos aleatoriamente e não têm padrão ou correlação em relação à linha de regressão do modelo.

Usando o conjunto de dados apresentados na Tabela 1 e usando o Nível de Regressão em X, método para estimar os parâmetros, faça a seguinte comparação:

Tabela 2: Comparando-se os coeficientes de correlação de duas distribuições utilizando o mesmo conjunto de dados

  Distribution Model Weibull Exponential
  Parameters β = 3.36, η = 100.05 λ = 0.0138
  Correlation Coefficient, 0.95 -0.67

O quadro acima mostra que a distribuição Weibull é um modelo muito adequado ( || está perto de 1). Além disso, o valor absoluto do coeficiente de correlação para a distribuição Weibull é maior do que para a distribuição exponencial (isto é, a distribuição Weibull é estatisticamente um ajuste melhor).

Nota: O coeficiente de correlação avaliado é exibido, por padrão no Weibull++, abaixo dos valores de parâmetro estimado sobre a guia Principal do Painel de Controle do Fólio Padrão.

Valor de Verossimilhança

Quando usar o MLE (Máxima Estimação de Verossimilhança), método para estimar os parâmetros do modelo de distribuição, o valor da verossimilhança pode ser usado para avaliar o ajuste da distribuição para o conjunto de dados. O valor de verossimilhança (ou função), L, é a base do parâmetro de estimativa do método MLE. Este é matematicamente formulado como segue:

Onde:

R é o número de unidades com exato tempo até falha.

M é o número de unidades suspensas.

P é o número de unidades com limite a esquerda ou intervalo de tempo até falha.

θ1, θ2, ..., θk são os parâmetros de distribuição.

Ti é o ith  tempo até falha.

Sj ié o jth tempo de suspensão.

  é o fim do intervalo de tempo do lth grupo.

 é o inicio do intervalo de tempo do lth grupo.

Diferentemente do coeficiente de correlação, o valor de verossimilhança não está limitado por um certo número de valores possíveis. “L” pode ter qualquer valor e, portanto, não pode ser utilizado por si só para fazer um julgamento sobre o ajuste do modelo de distribuição. “L” pode, contudo, ser utilizado para comparar o ajuste de várias distribuições. A distribuição com o maior valor L é o melhor ajuste estatístico.

Note que os valores de verossimilhança apresentados no Weibull + + são, na realidade, os valores de log-verossimilhança, não os valores de verossimilhança. A função log-verossimilhança é usada porque é muito mais fácil para trabalhar do que “L” para estimativa de parâmetro. Usar a função log-verossimilhança não afeta a validade dos resultados.

Usando o conjunto de dados apresentados na Tabela 1 e utilizando o método MLE para estimar os parâmetros, fazemos a seguinte comparação:

Tabela 3: Comparação entre o valor de log-verossimilhança de duas distribuições utilizando o mesmo conjunto de dados.
 
  Distribution Model Weibull Exponential
  Parameters β = 3.03, η = 100.99 λ = 0.0111
  Log-Likelihood Value -48.42 -55.04

A tabela acima mostra que o valor de log-verossimilhança para a distribuição Weibull é maior do que para a distribuição exponencial (isto é, a distribuição Weibull é estatisticamente um ajuste melhor).

Nota: O valor de log-verossimilhança é exibido por padrão no Weibull++, abaixo dos valores de parâmetro estimado sobre a guia Principal do Folio Padrão do Painel de Controle.

Teste de Kolmogorov-Smirnov (KS) Modificado

O padrão, teste Kolmogorov-Smirnov (KS), só pode ser utilizado para determinar o ajuste de uma distribuição contínua com parâmetros conhecidos. Nas análises dos dados de vida, os parâmetros normalmente são desconhecidos e precisam ser estimados a partir dos dados da amostra. Portanto, um outro tipo de teste KS é utilizado, chamado de teste KS Modificado.

Se o conjunto de dados é composto de N tempos de falha (t1, t2, ..., tN), podemos definir SN(t) ser a função que dá a fração de pontos de dados à esquerda de um determinado valor ti (i = 1, 2,, ..., N). SN(t) é constante entre consecutivos valores de ti, e salta pelas mesmas constantes com valor de 1/N até cada ti.

O test KS Modificado utiliza Dmáx, o valor máximo da diferença absoluta entre SN(t) e a função de distribuição cumulativa ajustada, Q (t). [Ref. 1]

O que torna o teste KS Modificado útil, é que a sua distribuição no caso da hipótese nula (ou seja, definir os dados extraídos da distribuição ajustada) pode ser calculada, pelo menos para uma aproximação útil, dando assim a importância de observar qualquer valor diferente de zero para Dmáx.

O teste KS Modificado retorna a probabilidade que DCRIT < Dmax. O elevado valor de probabilidade, perto de 1, indica que existe uma diferença significativa entre a distribuição teórica e o conjunto de dados.

Usando o conjunto de dados apresentados na Tabela 1 e utilizando o método MLE para estimar os parâmetros, fazemos a seguinte comparação:

Tabela 4: Comparação entre duas distribuições usando o teste Kolmogorov-Smirnov Modificado.
 
  Distribution Model Weibull Exponential
  Parameters β = 3.03, η = 100.99 λ = 0.0111
  P(DCRIT < Dmax) 14.84% 89.58%

A figura acima mostra que o valor de P(DCRIT < Dmax) para a distribuição Weibull é menor do que para a distribuição exponencial (isto é, a distribuição Weibull é estatisticamente um ajuste melhor).

Nota: O teste KS Modificado pode ser usado para pequenos tamanhos de amostra.

O resultado do teste KS Modificado pode ser obtido no Weibull + +, selecionando Melhoramento do Ajuste de Resultados do menu Dados.
 

Teste Qui-Quadrado

O teste qui-quadrado baseia-se na idéia de armazenar os dados, ou agrupar os dados em um número de intervalos adequados (como em histogramas). O armazenamento implica uma perda de informação e existe, freqüentemente, considerável arbitrariedade na forma como os compartimentos (blocos de dados) são escolhidos. O ótimo número de intervalos de classe, k, para um conjunto de dados com tamanho de amostra N pode ser calculado pela Regra de Sturges:
 

Suponha que Ni é o número de pontos de dados no compartimento iº e ni é o número esperado de acordo com a distribuição ajustada. A estatística qui-quadrada é então:

Onde a soma é superior a todos os compartimentos. Grandes valores de χ2 indicam que a hipótese nula é bastante improvável. Em outras palavras, não é provável que os Ni's são extraídos da população representada pelas ni's, (ou seja, o modelo instalado realmente se enquadra aos dados).

O valor χ2 segue uma distribuição que pode ser aproximado pela função de probabilidade qui-quadrado, principalmente quando o número de compartimentos é muito maior do que 1 ou o número de pontos de dados em cada fila é muito maior do que 1.

O teste qui-quadrado retorna a probabilidade de  χ2CRIT < χ2. O elevado valor de probabilidade, perto de 1, indica que existe uma diferença significativa entre a distribuição teórica e do conjunto de dados.

Usando o conjunto de dados apresentados na Tabela 1 e utilizando o método MLE para estimar os parâmetros, fazemos a seguinte comparação:

Tabela 5: Comparando duas distribuições utilizando o teste qui-quadrado
 
  Distribution Model Weibull Exponential
  Parameters β = 3.03, η = 100.99 λ = 0.0111
  P(χ2 CRIT < χ2) 26.50% 66.76%

A figura acima mostra que o valor de P(χ2 CRIT < χ2) para a distribuição Weibull é menor do que para a distribuição exponencial (isto é, a distribuição Weibull é estatisticamente um ajuste melhor). 

Nota: O teste qui-quadrado não é válido para pequenos tamanhos de amostra; é necessário uma amostra com tamanho mínimo entre 25 a 35 dados para que os resultados sejam válidos.

O teste qui-quadrado é menos eficiente que o teste KS Modificado, para qualquer tamanho amostral.

O resultado do teste qui-quadrado pode ser obtido no Weibull + +, selecionando Resultados do Teste de Aderência pelo menu Dados.

 

Referências
1. Kececioglu, Dimitri, Reliability and Life Testing Handbook, Volume I, Prentice Hall, Inc., New Jersey, 1993.

Copyright © 2008 ReliaSoft Brasil, TODOS DIREITOS RESERVADOS

 
[../../../../ReliaSoft Internet/Arquivos FrontPage/ReliaSoft Brasil/ReliaSoft.com/_private/footer.htm]