Regressão Linear

Regressão Linear é o processo estatístico que procura determinar a equação matemática mais adequada para definir a relação entre duas variáveis.

Muitas vezes a posição dos pontos experimentais no diagrama de dispersão sugere a existência de uma relação funcional entre as duas variáveis.

Assim, se os pontos experimentais se apresentarem como na figura 1, podemos admitir um relacionamento funcional entre as variáveis x e y, que são responsáveis pelo aspecto do diagrama, explicando grande parte das variações de x e y. Este relacionamento funcional corresponderia à linha existente na figura, que seria a linha de regressão.

[Figura 1: Linha de regressão]

Uma parcela da variação, entretanto, permanece, em geral, sem ser explicada e será atribuída ao acaso. Em outras palavras, admitimos existir uma função que justifica, em média, a variação das variáveis com a outra.

Na prática, os pontos experimentais terão uma variação em torno da linha representativa dessa função, devido à existência de uma variação aleatória adicional, chamada de variação residual.

Essa função de regressão, portanto, nos dá o valor médio de uma das variáveis em função da outra. Por exemplo, µ(y / x). Desta forma examinado será, dado os pontos experimentais, o de realizar uma indução quanto à expressão matemática da função de regressão.

Suponhamos que a linha de regressão seja uma reta e desejamos estabelecer a regressão y em função de x. A função desejada será da forma:

Os parâmetros α e β da reta teórica podem ser estimado através dos pontos experimentais fornecido por uma amostra, obtendo uma reta estimativa da forma:

Onde a é a estimativa do parâmetro α e b também chamado de coeficiente de regressão linear, é a estimativa do parâmetro β. O símbolo ŷ é utilizado para uma distinção dos valores dados pela reta estimativa, das ordenadas dos pontos experimentalmente obtidos.

A aplicação do princípio de ajustamento linear leva ao procedimento de mínimos quadrados, segundo o qual a reta a ser adotada deverá ser aquela que torna mínima a soma dos quadrados das distâncias da reta aos pontos experimentais, medidas no sentido da variação aleatória, que, como estamos considerando somente a variável y como aleatória, essas distâncias serão medidas na direção vertical.

Devemos procurar a reta para a qual se consiga minimizar:

sendo as distâncias d_i , como as indicadas na figura 2:

[Figura 2: Distância cuja soma dos quadrados deve ser minimizada]

Na equação (1), devemos impor a condição:

Os valores a e b que minimizam essa expressão serão aqueles que anulam as derivadas parciais dessa expressão:

Da última forma da equação (2), fazemos as derivadas parciais (3):

As equações (4) e (5) nos fornecem um sistema linear de duas equações e duas incógnitas:

De (4) temos:

Onde n é o número de dados experimentais.

De (5) temos:

Associando (6) e (7) obtemos o sistema linear:

Os pontos experimentais fornecem os elementos para a montagem desse sistema, cuja solução fornecerá os coeficientes a e b.

Exemplo: Vamos obter a equação da reta de mínimos quadrados, tomando os dados experimentais da tabela abaixo:

Temos os valores experimentais de x e y. No sistema linear dado em (8), há algumas combinações que ainda devemos calcular: n, x_iy_i, x_i². Vamos montar uma tabela para melhor organizar os dados:

Substituímos, então, os valores da tabela no sistema linear:

Temos várias formas de resolução de um sistema linear. Um método alternativo é o Método de Castilhos (veja aqui).

Resolvendo o sistema, encontramos:

Substituímos os valores encontrados para a e b na equação (1):

Que é a equação da reta de mínimos quadrados.

Podemos esboçar um gráfico de dispersão associado à reta de regressão:

[Figura 3: Reta de regressão]

Veja mais:

Regressão Polinomial
Polinômio Interpolador de Lagrange
Interpolação Polinomial no Blog Fatos Matemáticos: Parte 1, Parte 2 e Parte 3

5 comentários:

Prof. Paulo Sérgio6/7/10 23:39
Obrigado por citar o meu blog. Mas novamente, venho parabenizá-lo pela sua didática e exposição de um assunto tão interessante como esta.

Abraços!
ResponderExcluir
Respostas
Anônimo11/7/10 12:00
Cara, que demonstração chapada! Na facu só aprendemos fórmulas prontas. Agora ficou tudo esclarecido! Abçs
ResponderExcluir
Respostas
Alisson Oliveira22/2/12 20:19
Amigo, nunca vi um blog tão interessante quanto este!!! Meus e de todos os acadêmicos do Brasil, PARABÉNS!

Agora se não é pedir muito, poderia postar um exemplo de regressão linear onde pontos experimentais possuem incertezas de medição??

Desde já grato!!!
ResponderExcluir
Respostas
Kleber Kilhian23/2/12 07:52
Olá Alisson, agradeço seu gentil comentário.

Veja este pdf, onde tem um estudo sobre cálculo das incertezas. Veja página 45 em diante:

http://www.peb.ufrj.br/cursos/COB783/ErrosIncertezas.pdf

É um estudo bem interessante.

Para sabermos se usamos uma regressão linear ou quadrática, temos que obervar a dispersão dos pontos amostrais e definir que tipo de regressão melhor se aplica. Vou procurar um exemplo nas minhas notas de aula e depois publico aqui.

Um abraço.
ResponderExcluir
Respostas
Anônimo19/11/14 00:27
Muito bom o método. Só gostaria de entender por que eu posso afirmar que os valores de a e b que minimizam a função são aqueles que anulam a derivada parcial dela. Obrgado
ResponderExcluir
Respostas

Adicionar comentário

06/07/2010

Regressão Linear

5 comentários:

Principais categorias