06/07/2010

Regressão Linear

Regressão Linear é o processo estatístico que procura determinar a equação matemática mais adequada para definir a relação entre duas variáveis.

Muitas vezes a posição dos pontos experimentais no diagrama de dispersão sugere a existência de uma relação funcional entre as duas variáveis.

Assim, se os pontos experimentais se apresentarem como na figura 1, podemos admitir um relacionamento funcional entre as variáveis x e y, que são responsáveis pelo aspecto do diagrama, explicando grande parte das variações de x e y. Este relacionamento funcional corresponderia à linha existente na figura, que seria a linha de regressão.

image [Figura 1: Linha de regressão]

Uma parcela da variação, entretanto, permanece, em geral, sem ser explicada e será atribuída ao acaso. Em outras palavras, admitimos existir uma função que justifica, em média, a variação das variáveis com a outra.

Na prática, os pontos experimentais terão uma variação em torno da linha representativa dessa função, devido à existência de uma variação aleatória adicional, chamada de variação residual.

Essa função de regressão, portanto, nos dá o valor médio de uma das variáveis em função da outra. Por exemplo, µ(y / x). Desta forma examinado será, dado os pontos experimentais, o de realizar uma indução quanto à expressão matemática da função de regressão.

Suponhamos que a linha de regressão seja uma reta e desejamos estabelecer a regressão y em função de x. A função desejada será da forma:

clip_image002

Os parâmetros α e β da reta teórica podem ser estimado através dos pontos experimentais fornecido por uma amostra, obtendo uma reta estimativa da forma:

clip_image004

Onde a é a estimativa do parâmetro α e b também chamado de coeficiente de regressão linear, é a estimativa do parâmetro β. O símbolo ŷ é utilizado para uma distinção dos valores dados pela reta estimativa, das ordenadas dos pontos experimentalmente obtidos.

A aplicação do princípio de ajustamento linear leva ao procedimento de mínimos quadrados, segundo o qual a reta a ser adotada deverá ser aquela que torna mínima a soma dos quadrados das distâncias da reta aos pontos experimentais, medidas no sentido da variação aleatória, que, como estamos considerando somente a variável y como aleatória, essas distâncias serão medidas na direção vertical.

Devemos procurar a reta para a qual se consiga minimizar:

clip_image006

sendo as distâncias di , como as indicadas na figura 2:

image [Figura 2: Distância cuja soma dos quadrados deve ser minimizada]

Na equação (1), devemos impor a condição:

clip_image002[4]

Os valores a e b que minimizam essa expressão serão aqueles que anulam as derivadas parciais dessa expressão:

clip_image004[4]

Da última forma da equação (2), fazemos as derivadas parciais (3):

clip_image006[4]

clip_image008

clip_image010

clip_image012

clip_image014

clip_image016

clip_image018

As equações (4) e (5) nos fornecem um sistema linear de duas equações e duas incógnitas:

De (4) temos:

clip_image020

clip_image022

clip_image024

Onde n é o número de dados experimentais.

De (5) temos:

clip_image026

clip_image028

Associando (6) e (7) obtemos o sistema linear:

clip_image030

Os pontos experimentais fornecem os elementos para a montagem desse sistema, cuja solução fornecerá os coeficientes a e b.

Exemplo: Vamos obter a equação da reta de mínimos quadrados, tomando os dados experimentais da tabela abaixo:

image

Temos os valores experimentais de x e y. No sistema linear dado em (8), há algumas combinações que ainda devemos calcular: n, xi yi, xi2. Vamos montar uma tabela para melhor organizar os dados:

image Substituímos, então, os valores da tabela no sistema linear:

clip_image002[6]

Temos várias formas de resolução de um sistema linear. Um método alternativo é o Método de Castilhos (veja aqui).

Resolvendo o sistema, encontramos:

clip_image004[6]

clip_image006[6]

Substituímos os valores encontrados para a e b na equação (1):

clip_image008[4]

clip_image010[4]

Que é a equação da reta de mínimos quadrados.

Podemos esboçar um gráfico de dispersão associado à reta de regressão:

image

[Figura 3: Reta de regressão]


Veja mais:

Regressão Polinomial
Polinômio Interpolador de Lagrange
Interpolação Polinomial no Blog Fatos Matemáticos: Parte 1, Parte 2 e Parte 3

5 comentários:

  1. Obrigado por citar o meu blog. Mas novamente, venho parabenizá-lo pela sua didática e exposição de um assunto tão interessante como esta.

    Abraços!

    ResponderExcluir
  2. Cara, que demonstração chapada! Na facu só aprendemos fórmulas prontas. Agora ficou tudo esclarecido! Abçs

    ResponderExcluir
  3. Amigo, nunca vi um blog tão interessante quanto este!!! Meus e de todos os acadêmicos do Brasil, PARABÉNS!

    Agora se não é pedir muito, poderia postar um exemplo de regressão linear onde pontos experimentais possuem incertezas de medição??

    Desde já grato!!!

    ResponderExcluir
  4. Olá Alisson, agradeço seu gentil comentário.

    Veja este pdf, onde tem um estudo sobre cálculo das incertezas. Veja página 45 em diante:

    http://www.peb.ufrj.br/cursos/COB783/ErrosIncertezas.pdf

    É um estudo bem interessante.

    Para sabermos se usamos uma regressão linear ou quadrática, temos que obervar a dispersão dos pontos amostrais e definir que tipo de regressão melhor se aplica. Vou procurar um exemplo nas minhas notas de aula e depois publico aqui.

    Um abraço.

    ResponderExcluir
  5. Muito bom o método. Só gostaria de entender por que eu posso afirmar que os valores de a e b que minimizam a função são aqueles que anulam a derivada parcial dela. Obrgado

    ResponderExcluir

Por favor, leiam antes de comentar:

▪ Escreva um comentário apenas referente ao tema;

▪ Para demais, utilize o formulário de contato;

▪ Comentários ofensivos ou spans não serão publicados;

▪ Desde o dia 23/07/2013, todos os comentários passaram a ser moderados. Para maiores detalhes, veja a nota de moderação aqui;

▪ É possível escrever fórmulas em $\LaTeX$ nos comentários deste blog graças a um script da Mathjax. Para fórmulas inline ou alinhadas à esquerda, escreva a fórmula entre os símbolos de $\$$; Para fórmulas centralizadas, utilize o símbolo duplo $\$\$$.

Por exemplo, a^2 + b^2 = c^2 entre os símbolos de $\$\$$, gera:
$$a^2+b^2=c^2$$
▪ Para visualizar as fórmulas em $\LaTeX$ antes de publicá-las, acessem este link.

Redes Sociais

Arquivo do Blog

Related Posts Plugin for WordPress, Blogger...