Logo artbmxmagazine.com

A regressão loglinear para modelos saturados e hierárquicos aplicados à avaliação imobiliária

Anonim

Um problema que o avaliador enfrenta diariamente é a análise de variáveis ​​qualitativas (não numéricas). Porque as Variáveis ​​Qualitativas não apresentam comportamento linear (nem redutível a linear); Ao aplicar técnicas convencionais de regressão múltipla, elas podem gerar modelos irrealistas ou simplesmente não convergir para nenhum valor.

A Regressão Loglinear é um método estatístico cujo objetivo é estudar a "Classificação" das Variáveis ​​Qualitativas. É essencialmente um Modelo de Regressão Linear Múltipla entre as Variáveis ​​Qualitativas e o Logaritmo Neperiano da Frequência dos dados (referencial), na forma:

loglinear-regressão-para-modelos-saturados-e-hierárquicos-aplicados-para-avaliação de imóveis-1

O modelo anterior corresponde a um modelo completo (saturado) para as variáveis ​​qualitativas A, B e C; no entanto, o modelo anterior é um modelo pesado e complexo. Por um princípio elementar de parcimônia, devem ser encontrados um ou mais modelos mais simples que gerem um resultado com um grau de precisão aceitável e os definimos como "Modelos Hierárquicos", no sentido de que se um parâmetro for nulo, também o serão. esses termos de ordem inferior.

O SPSS Statistical Package, permite, através de um algoritmo, determinar o Modelo Saturado e o Modelo Hierárquico mais adequado.

Desta forma obtemos um Modelo cuja Variável de Resposta é o Logaritmo Neperiano da Frequência ("Contagem") dos dados (referencial) e as Variáveis ​​de Design aquelas variáveis ​​qualitativas selecionadas para a determinação do Valor de uma Propriedade.

Palavras-chave: regressão, correlação, análise loglinear, análise de correspondência, dicotômica, variável qualitativa, variável categórica, análise multivariada, tabela de contingência, modelo hierárquico, modelo saturado.

  • Quadro teórico:

1.1 O que é Regressão Loglinear?

Os Modelos Loglinear, ao contrário dos Modelos de Regressão Múltipla, permitem uma melhor análise para o caso de variáveis ​​qualitativas (categóricas) dicotômicas ou politômicas.

Na Análise Loglinear, pode então ser definido como um Método cujo objetivo é estudar as relações entre variáveis ​​qualitativas (ou não numéricas).

A Regressão ou Análise Loglinear é um método estatístico cujo objetivo é estudar a "Classificação" de Variáveis ​​Qualitativas.

A Regressão Loglinear é essencialmente um Modelo de Regressão Linear Múltipla entre as Variáveis ​​Qualitativas e o Logaritmo Neperiano da Frequência dos dados (referencial), na forma:

O uso fundamental da análise Loglinear é determinar a contribuição das diferentes variáveis ​​categóricas selecionadas, na formação de uma "Tabela de Contingência".

1.2 O que são tabelas de contingência?

É definida como “Tabela de Contingência” (Tabelas de Tabela cruzada), uma combinação de duas ou mais tabelas de distribuição de frequência, organizadas de forma que cada célula ou caixa da Tabela resultante represente uma única combinação das “variáveis ​​tabuladas por referência cruzada. ”.

De tal forma que a "Tabela de Contingências" permite examinar as frequências observadas que pertencem a cada uma das combinações específicas de duas ou mais variáveis.

Por exemplo:

Tabela de contingência da análise da relação entre a preferência da população por morar em casa ou apartamento em duas cidades principais:

VIVENDO EM CASAS VIVENDO EM APARTAMENTO.
CARACAS 10 40. cinquenta
VALENCIA 30 vinte cinquenta
cinquenta cinquenta 100

Examinando essas frequências, podemos identificar as relações entre as variáveis ​​da “Tabela de Contingência” (por exemplo, A população de Caracas claramente prefere viver em apartamentos).

A Regressão Loglinear nos fornece uma forma mais sofisticada de analisar as “Tabelas de Contingência” e determinar as interações estatísticas das variáveis ​​selecionadas.

1.3 Variáveis ​​de Design vs. Variáveis ​​de resposta

Nas técnicas de Regressão Múltipla, falamos em "Variáveis ​​Independentes" e "Variável Dependente", definindo a Variável Dependente como aquela que é explicada pela combinação de Variáveis ​​Independentes.

Na Regressão Loglinear, não se pode falar em Variáveis ​​Dependentes ou Independentes, pois se trata de relacionar apenas o Logaritmo Neperiano da Frequência (ocorrência ou contagem de dados) a partir de uma série de variáveis ​​categóricas (qualitativas).

Portanto, falaríamos sobre "Variáveis ​​de design" e "Variável de resposta"; sendo as " Variáveis ​​de Design " aquelas variáveis ​​categóricas (Dicotômicas ou politômicas) que selecionamos para construir nossa Tabela de Contingência e a " Variável de Resposta " a frequência ou ocorrência dos dados.

1.4 Qualidade de ajuste

A qualidade do ajuste de uma regressão loglinear é baseada na “significância” do desvio (residual) entre a frequência observada dos dados e a frequência esperada gerada pelo modelo loglinear.

Ou seja, o modelo ficará melhor em função de minimizar a diferença entre a Frequência Observada e Esperada.

A Significância (p) ou "Goodness of Fit" de um Modelo Loglinear particular será avaliada por: O Teste Qui-quadrado Tradicional () e Teste Estatístico de Máxima Verossimilhança de Pearson () (ou Qui-quadrado da Razão de Verossimilhança de Pearson como é seu nome em inglês).

De forma que os seguintes parâmetros sejam atendidos:

  • Chi Square (): Máximo Pearson Estatística de Máxima Verossimilhança (): Máxima Significância (Sig.): Mínima (O Modelo Loglinear Saturado

2.1 Definição de um modelo saturado

A Análise ou Regressão Loglinear, analisa o Logaritmo Neperiano (Ln) da Frequência de cada célula ou caixa de uma Tabela de Contingência, por meio de um modelo linear.

Portanto, o Ln da frequência de cada célula ou caixa pode ser expresso como a soma das contribuições das diferentes variáveis ​​envolvidas na formação do Modelo Loglinear.

Um Modelo Saturado (ou Completo) é definido como aquele que contém TODOS os efeitos principais possíveis e TODAS as combinações possíveis (efeitos de 2ª, 3ª ou enésima ordem) das Variáveis ​​selecionadas que o compõem.

Porque o Modelo Loglinear Saturado pode reproduzir perfeitamente os dados estudados, pois contém todas as combinações possíveis das variáveis ​​selecionadas; presume-se que seja um modelo pesado e complexo e geralmente não é o modelo mais desejável.

Por um princípio elementar de parcimônia, devem ser encontrados um ou mais modelos mais simples, que gerem um resultado com um grau de precisão aceitável e os definimos como "Modelos Hierárquicos" e que serão analisados ​​posteriormente.

2.2 Exemplo de um modelo log-linear saturado

Suponha que para um estudo de avaliação de apartamento de férias em uma cidade costeira, queiramos estudar a relação entre as variáveis ​​categóricas:

X: Vista para o mar

Y: Edifício com piscina

Z: Edifício com barracas de estacionamento para visitantes

A equação para um Modelo Loglinear Saturado é dada por:

Onde:

Representa a frequência de cada célula ou grade do produto Tabela de Contingência da interação dos Dados (referencial) e Variáveis ​​selecionadas

Representa o Termo Independente da Equação

Representa o "efeito principal" da Variável Quantitativa ou Categorial X

Representa o "efeito principal" da Variável Quantitativa ou Categorial Y

Representa o "efeito principal" da Variável Quantitativa ou Categorial Z

Representa o "efeito de segunda ordem" ou combinação das Variáveis ​​Categóricas X ý Y

Representa o "efeito de segunda ordem" ou combinação das Variáveis ​​Categóricas X ý Z

Representa o "efeito de segunda ordem" ou combinação das Variáveis ​​Categóricas Y ý Z

Representa o "efeito de terceira ordem" ou combinação das Variáveis ​​de Categoria X, Y e Z

2.3 Desvantagem do modelo saturado

O modelo saturado, embora obviamente sempre verdadeiro, supõe um número incontrolável de equações; por exemplo, para o caso anterior Nove Equações. Portanto, é um modelo pesado e extremamente complexo.

Portanto, é necessário buscar um ou mais modelos mais simples que considerem essas frequências com um grau de precisão aceitável para um determinado nível de confiança.

Ao analisar tabelas de contingência de quarta ordem ou superior, determinar o melhor modelo de regressão loglinear pode ser muito difícil. É aqui que entraria a busca por um Modelo de Correlação mais simples.

  • Modelos Lógicos Hierárquicos

3.1 Definição

Os Modelos Loglineares Hierárquicos são definidos como os diferentes modelos, todos os subconjuntos (equações de ordem inferior do Modelo Saturado) provenientes do Modelo Loglinear Saturado, que atendem às seguintes condições:

  1. Se um parâmetro for nulo, o mesmo ocorrerá com os termos de ordem inferior. Que haja completa independência entre as variáveis ​​selecionadas

Se essas condições forem atendidas, um modelo Loglinear mais simples e elegante é gerado com um grau de precisão aceitável.

3.2 Relacionamento hierárquico

Para um modelo com três (3) variáveis ​​de projeto A, B e C, um grande número de modelos hierárquicos de ordem inferior pode ser obtido, como o seguinte:

  • Modelo hierárquico de terceira ordem (modelo saturado): modelos hierárquicos de segunda ordem Modelos hierárquicos de primeira ordem OU qualquer combinação válida:

3.3 Obtendo o Modelo Hierárquico de Melhor Ajuste

3.3.1 Método Geral

O Método de Busca do Melhor Modelo Hierárquico mais utilizado por pacotes estatísticos dedicados ao que é conhecido como "Eliminação Backward".

Esta metodologia combina o uso de k (th) -ordens e o teste de qui-quadrado para encontrar um modelo hierárquico ou vários modelos hierárquicos significativos

  1. Começamos calculando o modelo saturado. O modelo hierárquico ou os modelos hierárquicos de ordem superior são analisados. O modelo ou os modelos dessa ordem que não são significativos são eliminados (). Os modelos hierárquicos de ordem inferior são eliminados nas mesmas variáveis. Os modelos hierárquicos são analisados. O processo continua até o ponto em que mais efeitos não podem ser eliminados sem sacrificar o poder preditivo do modelo (), permanecem constantes ou tendem a diminuir ou aumentar.

3.3.2 Uso de SPSS na determinação de Modelos de Regressão Loglinear

O objetivo desta monografia não é de forma alguma um texto sobre as técnicas de Regressão Loglinear.

Pelo contrário, é a aplicação de uma nova ferramenta estatística para resolver problemas relacionados com a Avaliação, no caso da utilização de variáveis ​​não numéricas ou qualitativas.

Portanto, uma vez que a teoria estatística-matemática dos Modelos Loglineares (Saturados e Hierárquicos) foi exposta de forma bastante esquemática, procederemos ao estudo de um caso prático utilizando o pacote estatístico SPSS versão 10.0.

O pacote estatístico SPSS, através do Módulo Loglinear, permite a determinação de Modelos Estatísticos Hierárquicos e Saturados.

Dentro dos “Modelos Hierárquicos”, o SPSS permite selecionar automaticamente o Modelo Hierárquico de Melhor Ajuste ou permite ao usuário escolher ou modelar qualquer subconjunto de variáveis.

O desenvolvimento desta monografia é baseado na determinação automática do Modelo Hierárquico de melhor ajuste, de acordo com um algoritmo do SPSS.

O SPSS utiliza o método denominado "Backward Elimination", mencionado anteriormente, para determinar o Modelo Loglinear de melhor ajuste.

Deve-se destacar que o algoritmo "Backend" é longo, ocupando cerca de Quinze (15) páginas de texto na hora de imprimir os resultados.

Basicamente, o processo de cálculo pode ser resumido nas seguintes etapas gerais:

  1. Insira corretamente os dados a serem correlacionados no "Editor de Dados" do pacote SPSS Os procedimentos de cálculo no SPSS encontram-se no Menu Analisar. Dentro do Menu Analisar existe a sub-rotina ou módulo Loglinear. Dentro do módulo Loglinear, Encontre três (3) submenus:
    1. GeralLogit
  • Seleção de modelo… Assim que a análise linear de seleção de modelo estiver localizada na tela, prossiga para:
    1. Selecione as "Variáveis ​​de Design" a serem correlacionadas Defina os intervalos mínimo e máximo dos dados que compõem cada uma das "Variáveis ​​de Design".
    Defina as opções de cálculo e saída dos modelos E Inicie a análise com o botão OK.
  1. Uma vez que o SPSS tenha concluído os cálculos, ele apresentará a saída dos modelos na tela do SPSS Viewer, em forma de texto, a partir da qual o usuário pode imprimir em papel ou "exportar" a saída para um arquivo de texto para uso em um processador de texto ou planilha.

3.4 Interpretação da Saída SPSS

Talvez o maior problema para o Engenheiro Avaliador seja a interpretação da saída do SPSS.

Em primeiro lugar, é necessário ter algum conhecimento básico do que se pretende fazer, pois o pacote estatístico gera uma grande quantidade de informações, que você deve saber identificar e avaliar. Em segundo lugar, deve ficar claro que o pacote SPSS irá gerar “Tabelas de Contingência” de diferentes níveis e é necessário ter os conhecimentos básicos para a sua remontagem para poder interpretar os resultados do modelo.

O pacote estatístico dedicado SPSS apresenta uma saída padrão que geralmente é composta por:

  1. Geração do modelo log-linear saturado Estatísticas de controle do modelo log-linear saturado
    1. Graus de liberdade (F.) Chi quadrado () Estatística de máxima verossimilhança de Pearson () Significância (Prob.) Outras estatísticas de controle
    Procedimento de backelimination para o cálculo do Modelo Hierárquico Loglinear de Melhor Ajuste, onde o software:
    1. Parte do Modelo Loglinear Saturado Analisa todos os Modelos Hierárquicos possíveis começando da ordem mais alta para a ordem mais baixa Indica para cada um dos "Modelos Hierárquicos" suas estatísticas de controle correspondentes Sugere no final como "Modelo Hierárquico de Melhor Ajuste" aquele que tem
      1. A “Estatística de Máxima Verossimilhança de Pearson” (): Máxima A “Significância” (): Mínima
  1. Geração de:
    1. Modelo Loglinear Hierárquico de "Melhor Ajuste" Estatísticas de Controle do Modelo Loglinear Hierárquico
      1. Graus de liberdade (DF) Estatística de máxima verossimilhança de Pearson ()
  • Significância (Prob.)

4.0 A Regressão Loglinear para Modelos Saturados e Hierárquicos aplicados à Avaliação Imobiliária.

4.1 Aplicação da Regressão Loglinear para Avaliação Imobiliária

Um problema que o Avaliador enfrenta diariamente é a análise de Variáveis ​​Qualitativas ou Categóricas (Não Numéricas), como Vista do Apartamento, Qualidade do Bairro, Instalações nas áreas comuns, Segurança; que sendo “Características Intangíveis”, sem dúvida, contribuem para a formação ou destruição do valor de um bem.

Porque as Variáveis ​​Qualitativas ou Categóricas não apresentam um comportamento linear (nem redutível a linear); aplicando as técnicas convencionais de regressão múltipla, incluindo técnicas de redes neurais; eles podem produzir resultados inconsistentes ou simplesmente não convergir para nenhum valor.

4.2 Avaliação por tabelas de contingência

Porque o objetivo final da análise Loglinear é determinar a conformação das "Tabelas de Contingência". A avaliação de um imóvel terá como base a localização das suas características nesta “Tabela de Contingência gerada”.

Portanto, uma abordagem diferente da Metodologia Tradicional para a preparação de uma avaliação será apresentada aqui.

Até agora, as características físicas (área, idade, localização, etc.) do imóvel eram analisadas para determinar o seu valor.

Nesta nova abordagem, a “Faixa de Valores” da propriedade vai depender de sua posição dentro da “Tabela de Contingência” gerada pela “Análise Loglinear”. Porque a variável “Preço” (ou Preço Unitário) passou a ser apenas mais uma “Variável de Design”.

Nesta nova perspectiva, a “categoria”, que até agora possuía, a Variável “Preço” (ou Preço Unitário) foi reduzida, passando a ser mais um componente dos diferentes parâmetros que juntos podem definir a posição de uma propriedade dentro de uma tabela de contingência e, portanto, determinar sua "Faixa de Valores".

4.3 Exemplo de Aplicação

Devido à novidade do método e à complexidade da interpretação das entradas / saídas dos dados. Este método será explicado passo a passo, sob a abordagem de um modelo de avaliação bastante simples.

4.3.1 Descrição do Problema

Trata-se da avaliação de apartamentos de férias em diversos empreendimentos semelhantes no Barlovento venezuelano (próximo ao Rio Chico. Estado de Miranda), como Los Canales, Las Mercedes, Lagunamar, etc.

Por ser um exemplo de aplicação simples, apenas uma pequena amostra de 18 dados referenciais de apartamentos muito semelhantes foi selecionada.

4.3.2 Variáveis ​​categóricas selecionadas

Como este exemplo ilustra a prova de regressão logística, apenas as seguintes variáveis ​​categóricas ou qualitativas serão usadas:

4.3.3 Referenciais Selecionados

Todas as Referências foram retiradas da Secretaria Subalterna do Registro Público de Río Chico e correspondem a Documentos autenticados no primeiro trimestre do ano 2.003.

4.3.4 Codificação de dados

De acordo com os critérios usados ​​na Seção 4.3.2 com relação às Variáveis ​​de Projeto selecionadas, uma matriz de dados codificados será preparada de forma a poder inseri-los no pacote estatístico SPSS.

4.3.4.1 Seleção de variáveis ​​de projeto

4.3.4.1 Codificação de Variáveis ​​de Projeto

4.3.5 Trechos da Saída do SPSS Statistical Package

4.3.5.1 Especificação do Modelo Loglinear

* * * * * * * * HIERARCHICALLOGLINEAR * * * * * * * *

Informação de dados

18 casos não ponderados aceitos.

0 casos rejeitados devido a valores de fator fora do intervalo.

0 casos rejeitados devido à falta de dados.

18 casos ponderados serão usados ​​na análise.

Informação FACTOR

Etiqueta de nível de fator

PREÇO 4

MERCADO 2

POOL 2

VER 2

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

4.3.5.2 Estatísticas de controle de modelo loglinear saturado

* * * * * * * * HIERARCHICALLOGLINEAR * * * * * * * *

DESIGN 1 tem classe geradora

PREÇO * MERCADO * PISCINA * VER

Nota: Para modelos saturados, 0,500 foi adicionado a todas as células observadas.

Este valor pode ser alterado usando o subcomando CRITERIA = DELTA.

O algoritmo Iterative Proporcional Fit convergiu na iteração 1.

A diferença máxima entre os totais marginais observados e ajustados é 0,000

e o critério de convergência é 0,250

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Estatísticas de teste de adequação

Razão de verossimilhança qui quadrado = 0,00000 DF = 0 P = 1,000

Qui quadrado de Pearson = 0,00000 DF = 0 P = 1,000

4.3.5.3 Método de eliminação reversa: Lista de todos os efeitos possíveis de 3ª, 2ª e 1ª ordem

* * * * * * * * HIERARCHICALLOGLINEAR * * * * * * * *

Testes de associações PARCIAIS.

Nome do efeito DF Parcial Chisq Prob Iter

PREÇO * MERCADO * PISCINA 3.044.9976 3

PREÇO * MERCADO * VER 3.189.9794 2

PREÇO * PISCINA * VER 3.000 1.0000 4

MERCADO * PISCINA * VER 1.000 1.0000 3

PREÇO * MERCADO 3 7,869 0,0488 4

PREÇO * PISCINA 3 5.039.1690 3

MERCADO * POOL 1.629.4276 4

PREÇO * VER 3 5.917.1157 4

MERCADO * VER 1.777.3779 4

PISCINA * VER 1 7,530,0061 2

PREÇO 3 8,089,0442 2

MERCADO 1.223.6370 2

POOL 1.896.3438 2

VER 1.896.3438 2

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

4.3.5.3 Método de Eliminação Backward: Seleção do Modelo Hierárquico de Melhor Ajuste

Etapa 9

O melhor modelo possui classe geradora

PREÇO * MERCADO

PREÇO * VER

VISTA DA PISCINA

Razão de verossimilhança qui quadrado = 6,33129 DF = 18 P = 0,995

* * * * * * * * HIERARCHICALLOGLINEAR * * * * * * * *

O modelo final tem geração de classe

PREÇO * MERCADO

PREÇO * VER

VISTA DA PISCINA

O algoritmo Iterative Proporcional Fit convergiu na iteração 0.

A diferença máxima entre os totais marginais observados e ajustados é 0,000

e o critério de convergência é 0,250

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

O Loglinear Best Fit Model sendo o seguinte:

4.3.5.4 Determinação das Frequências Observadas e Esperadas do Modelo Loglinear Hierárquico:

Frequências e resíduos observados, esperados.

Fator Código OBS contagem EXP contagem Residual Std Resid

PREÇO 1

MERCADO 0

POOL 0

VER 0 3,0 2,5.45.28

VER 1.0.0.00.00

PISCINA 1

VER 0 1,0 1,5 -,45 -,38

VER 1.0.0.00.00

MERCADO 1

POOL 0

VER 0 1.0.6.36.46

VER 1.0.0.00.00

PISCINA 1

VER 0.0.4 -.36 -.60

VER 1.0.0.00.00

PREÇO 2

MERCADO 0

POOL 0

VISUALIZAR 0 2.0 1.7.30.23

VER 1.0.0.00.00

PISCINA 1

VER 0 1.0 1.0.03.03

VER 1 3,0 3,3 -,33 -,18

MERCADO 1

POOL 0

VER 0 1.0.8.15.16

VER 1.0.0.00.00

PISCINA 1

VER 0.0.5 -.48 -.70

VISUALIZAÇÃO 1 2.0 1.7.33.26

PREÇO 3

MERCADO 0

POOL 0

VER 0.0.0.00.00

VER 1.0.0.00.00

PISCINA 1

VER 0.0.0.00.00

VER 1.0.0.00.00

MERCADO 1

POOL 0

VER 0.0.6 -.64 -.80

VER 1.0.0.00.00

PISCINA 1

VER 0 1.0.4.64 1.06

VER 1.0.0.00.00

PREÇO 4

MERCADO 0

POOL 0

VER 0.0.0.00.00

VER 1.0.0.00.00

PISCINA 1

VER 0.0.0.00.00

VER 1.0.0.00.00

MERCADO 1

POOL 0

VER 0.0.6 -.64 -.80

VER 1.0.0.00.00

PISCINA 1

VER 0 1.0.4.64 1.06

VIEW 1 2.0 2.0.00.00

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Estatísticas de teste de adequação

Razão de verossimilhança qui quadrado = 6,33129 DF = 18 P = 0,995

Qui quadrado de Pearson = 4,96161 DF = 18 P = 0,999

4.3.6 Traçando a Tabela de Contingência

4.3.7 Outra forma de apresentar a Tabela de Continência de uma forma mais fácil de entender:

4.3.8 Exemplos de aplicação:

4.3.8.1 Exemplo Número 1:

Seja um apartamento de férias na Urbanização Los Canales com as seguintes características:

  • Apartamento Novo, Vista Canal, Edifício com Piscina

Todas as linhas que incluem as seguintes características estão localizadas na "Tabela de Contingência":

  • NOVO = 1 VISÃO = 1 POOL = 1

Isso formaria o seguinte Subgame:

Conforme observado na Tabela de Contingências, existem Quatro (4) Faixas de Preços (PREÇO) possíveis para determinar o valor do apartamento a ser avaliado. Mas ao observar a Quarta Linha percebe-se que a FREQUÊNCIA ESPERADA é máxima.

Portanto, o Apartamento está localizado nessa linha da Tabela de Contingência e sua faixa de preço é PREÇO = 4. Isso indica que o Valor do referido imóvel está na Faixa de Apartamentos maior que 55 Milhões de Bolívares.

4.3.8.2 Exemplo número 2:

Seja um apartamento de férias na Urbanização Los Canales com as seguintes características:

  • Apartamento Usado com Vista do Canal e Piscina

Solução:

Todas as linhas que incluem as seguintes características estão localizadas na "Tabela de Contingência":

  • NEW = 0VIEW = 1POOL = 1

Isso formaria o seguinte Subgame:

Conforme observado na Tabela de Contingências, existem Quatro (4) Faixas de Preços (PREÇO) possíveis para determinar o valor do apartamento a ser avaliado. Mas ao observar a Segunda Linha nota-se que a FREQÜÊNCIA ESPERADA é máxima.

Portanto, o Apartamento está localizado nessa linha da Tabela de Contingência e sua faixa de preço é PREÇO = 2. Isso indica que o Valor do referido imóvel está na Faixa de Apartamentos entre 25 e 40 Milhões de Bolívares.

4.3.8.3 Exemplo Número 3:

Seja um apartamento de férias na Urbanização Los Canales com as seguintes características:

  • ApartmentCanal ViewBuilding usado sem piscina

Solução:

Todas as linhas que incluem as seguintes características estão localizadas na "Tabela de Contingência":

  • NEW = 0VIEW = 1POOL = 0

Isso formaria o seguinte Subgame:

Conforme observado na Tabela de Contingências, existem Quatro (4) Faixas de Preços (PREÇO) possíveis para determinar o valor do apartamento a ser avaliado. Mas ao olhar para a Tabela de Contingências, percebe-se que a FREQUÊNCIA ESPERADA é de 0,0 para todas as combinações possíveis de dados.

A conclusão lógica para este caso é que não foram fornecidos dados suficientes ao modelo para gerar qualquer tipo de combinação entre as Variáveis ​​de Design, para determinar o valor deste tipo de apartamento em particular.

Portanto, o valor deste apartamento não pode ser determinado usando o presente Modelo Loglinear Hierárquico

  • Conclusões
  1. As técnicas de Regressão Loglinear Hierárquica explicam muito melhor o comportamento dos fenômenos estatísticos do que as técnicas de Regressão Múltipla ou Redes Neurais, no caso de séries de dados categóricos. Em tarefas de classificação, os Modelos Loglineares Hierárquicos geram resultados muito mais exatos do que Os Modelos de Regressão Logística Múltipla, apesar de ambos os métodos serem destinados a séries de dados categóricos, Para séries de dados heterogêneos (Categóricos Mistos e Quantitativos), Redes Neurais Artificiais e Técnicas de Regressão Múltipla, ultrapassam em muito os Modelos Loglineares Hierárquicos. A utilização de Modelos Loglineares Hierárquicos é uma ferramenta poderosa para a "avaliação massiva" de bens móveis e imóveis, pois permite classificar o bem em Tabelas de Contingência pré-estabelecidas.o pacote estatístico SPSS é muito explícito no manuseio, operação e interpretação dos resultados. É complicado adaptar os Modelos Loglineares Hierárquicos como uma ferramenta de análise simples a ser usada por avaliadores sem conhecimento básico do assunto.

Ing. Roberto Piol Puppio

CIV 32.290 / SOITAVE 260

www.joinme.net/rpiol

E-mail: [email protected]

Novembro 2.003

BIBLIOGRAFIA

  • BERRIDGE D. (1994) “Avaliação da qualidade do ajuste de modelos de regressão para dados categóricos ordinais”, 9º Workshop Internacional de Modelagem Estatística, Universidade de Exeter. London.CAMERON T. e QUIGGIN J. (1994) "Estimativa usando dados de avaliação contingente de um" questionário de escolha dicotômica com acompanhamento " Jornal de Economia e Gestão Ambiental. Próximo. Nova YorkTABACHNICK BG e FIDELL LS (1996). "Usando estatísticas multivariadas", 3ª ed. Harper Collins, New York. GEORGE D e MALLERY P. (2000) "Spss for windows step by step." Allyn & Bacon. Massachusetts.JOBSON JD (1992) “Applied multivariate data analysis. Vollume II ". Springer Verlag. New York.LOZARES C., LOPEZ P. E BORRAS V. (1998) "A complementaridade do log-linear e a análise das correspondências na elaboração e análise de tipologias".Artigos da Universidade Autônoma de Barcelona. Número 55 pp. 79-93. Barcelona.PIOL R. (1989-2002) “Métodos estatísticos aplicados à avaliação imobiliária”. SOITAVE. Caracas.PIOL R. (2002) "Redes neurais aplicadas à avaliação imobiliária". Revista SOITAVE. Número 54 de setembro 2.002 pp. 42-49 Caracas VARIOUS AUTHORS (1999) "Testes de independência usando tabelas de contingência multiway em spss". A Universidade do Texas. Austin VARIOUS AUTHORS (1995) “Análise log-linear de tabelas de frequência” Statsoft, Inc. Electronic Textbook. Acesse http://www.statsoft.com/textbook/stloglin.html WHITELEY, P. (1983) “The analysis of contingency tables”. N. Schofield & P. ​​Whitely (editores). Londres.Caracas.PIOL R. (2002) "Redes neurais aplicadas à avaliação imobiliária". Revista SOITAVE. Número 54 de setembro de 2.002 pp. 42-49 Caracas VARIOUS AUTHORS (1999) "Testes de independência usando tabelas de contingência multiway em spss". A Universidade do Texas. Austin VARIOUS AUTHORS (1995) “Análise log-linear de tabelas de frequência” Statsoft, Inc. Electronic Textbook. Acesse http://www.statsoft.com/textbook/stloglin.html WHITELEY, P. (1983) “The analysis of contingency tables”. N. Schofield & P. ​​Whitely (editores). Londres.Caracas.PIOL R. (2002) "Redes neurais aplicadas à avaliação imobiliária". Revista SOITAVE. Número 54 de setembro de 2.002 pp. 42-49 Caracas VARIOUS AUTHORS (1999) "Testes de independência usando tabelas de contingência multiway em spss". A Universidade do Texas. Austin VARIOUS AUTHORS (1995) “Análise log-linear de tabelas de frequência” Statsoft, Inc. Electronic Textbook. Acesse http://www.statsoft.com/textbook/stloglin.html WHITELEY, P. (1983) “The analysis of contingency tables”. N. Schofield & P. ​​Whitely (editores). Londres.Livro Eletrônico. Acesse http://www.statsoft.com/textbook/stloglin.html WHITELEY, P. (1983) “The analysis of contingency tables”. N. Schofield & P. ​​Whitely (editores). Londres.Livro Eletrônico. Acesse http://www.statsoft.com/textbook/stloglin.html WHITELEY, P. (1983) “The analysis of contingency tables”. N. Schofield & P. ​​Whitely (editores). Londres.

A REGRESSÃO LOGLINE PARA OS MODELOS SATURADOS E HIERARQUICOS APLICADOS À AVALIAÇÃO IMOBILIÁRIA.

Contribuição de: Ing. Roberto Piol Puppio - [email protected]

Uma variável dicotômica (como "Com vista para o mar" = 1 ou "Sem vista para o mar" = 0) é um exemplo de variável qualitativa / categórica. Como a variável qualitativa e dicotômica "Sea View" não é linear, quando combinada com outras variáveis ​​independentes, sejam quantitativas ou qualitativas (como área de construção, idade da propriedade, etc.) em um modelo de regressão linear múltipla, será altamente improvável estimar ou prever corretamente a variável "Preço Unitário" com base nessas variáveis ​​mistas.

Quando variáveis ​​quantitativas (ou numéricas) são usadas, elas falam de "Técnicas de Previsão ou Estimação"; enquanto quando variáveis ​​qualitativas ou categóricas são usadas, pode-se falar de "Técnicas de Classificação"

Conceito análogo à Teoria Residual que é usada em Métodos de Regressão Múltipla para identificar Dados Atípicos contidos em uma série de dados.

Teste de máxima verossimilhança de Pearson (LRT, L 2 ou G 2como é conhecido em diferentes textos), é um teste estatístico da qualidade do ajuste entre dois modelos. Um modelo relativamente mais complexo é comparado a um modelo mais simples para ver se eles se comparam significativamente bem para um determinado conjunto de dados. O LRT só é válido se você comparar com modelos aninhados hierarquicamente. Ou seja, o modelo mais complexo só deve diferir do modelo simples adicionando uma ou mais variáveis; de forma que adicionando variáveis ​​adicionais, uma maior qualidade de ajuste é obtida. No entanto, há um ponto em que adicionar variáveis ​​adicionais NÃO melhorará significativamente a qualidade do ajuste do modelo mais simples. O LRT mantém um critério objetivo de seleção entre os modelos possíveis. O LRT começa com uma comparação de Qui Quadrados da forma:

Ou seja, a diferença dos logaritmos naturais dos Qui-quadrados é avaliada, com base na diferença dos Graus de Liberdade. O LRT segue aproximadamente o modelo.

Pode-se citar a analogia desse conceito com o da Análise Fatorial para Regressão Múltipla. A Análise Fatorial permite obter um Modelo de Regressão Linear Múltipla mais simples e com menos variáveis, eliminando “Variáveis ​​Não Significativas”, mas ao mesmo tempo mantendo um resultado aceitável em um nível de confiança predeterminado.

O teste "Independência completa" implica que no modelo hierárquico todas as variáveis ​​são independentes umas das outras. Isso é obtido comparando-se os Qui-Quadrados de cada variável, com a “Hipótese Nula” (obtida na Tabela para seus respectivos Graus de Liberdade). Onde deve ser cumprido que:

Se o acima for verdadeiro, isso indica que o Modelo Hierárquico independente é significativamente diferente do Modelo Saturado, sugerindo que este Modelo Hierárquico contém a variável ou variáveis ​​necessárias para obter uma boa correlação ou ajuste.

O SPSS versão 10.0 é propriedade da SPSS, Inc. Todos os direitos reservados.

No entanto, o SPSS permite que a saída seja exportada em sua totalidade como um arquivo de texto, permitindo ao Engenheiro Avaliador adicionar extratos dela ao Laudo de Avaliação para dar suporte às operações.

O Submenu de Seleção de Modelos…, é a sub-rotina ou módulo onde se encontra o algoritmo para determinar os Modelos Hierárquicos; porém aqui o “Modelo Saturado” é determinado automaticamente, pois o Método de Backelimination começa com o cálculo do Modelo Saturado, conforme já explicado no texto.

Como a Regressão Loglinear é um método focado na classificação de variáveis ​​categóricas, os dados são geralmente expressos como números inteiros (por exemplo: 0 e 1 no caso de variáveis ​​dicotômicas).

Para uma melhor explicação e instruções detalhadas sobre a operação do programa, consulte o Manual de Instruções SPSS.

A saída do SPSS pode variar dependendo das opções de cálculo e saída determinadas pelo usuário.

Modelos loglineares são impressos como matrizes multinível na saída do pacote

O modelo Hierárquico Loglinear é impresso como uma matriz multinível na saída do pacote

É óbvio que a Variável “Preço” ou “Preço Unitário” é uma variável numérica ou quantitativa e, portanto, deve ser “transformada” em uma variável qualitativa ou categórica. Para isso, não será mais possível falar em Variável de Preço (Preço Unitário), mas em Variável de “Faixa de Preços”.

Observe que essas são apenas variáveis ​​categóricas ou qualitativas.

O SPSS apresenta a saída na tela do SPSS Viewer, em formato de texto. Essa saída pode ser impressa ou exportada como um arquivo de texto.

O Modelo Loglinear Saturado contém todos os “Efeitos Principais” possíveis e todas as combinações possíveis de “Efeitos Variáveis ​​Combinados”, portanto reproduz perfeitamente os dados (). O Modelo Loglinear Saturado não é mostrado neste trecho da saída SPSS

O pacote SPSS, atinge a determinação do Modelo Hierárquico Loglinear de "Melhor Ajuste", partindo do Modelo Saturado e eliminando aqueles efeitos de qualquer ordem que não contribuam significativamente para o modelo; de modo que a “Estatística de Máxima Verossimilhança de Pearson” () seja Máxima e a “Significância” () seja Mínima

O modelo Hierárquico Loglinear apresenta a “Tabela de Contingência” como uma matriz multinível na saída do pacote. Agora iremos proceder para "armar" esta saída em forma de matriz, para uma interpretação mais fácil dela. As “Frequências Esperadas” serão utilizadas como coeficientes da “Tabela de Contingências”.

A planilha MS-Excel será usada para traçar a Tabela de Contingência.

Não se esqueça que os dados são compostos por apenas 18 referências, por se tratar de um modelo didático.

Uma analogia a esse tipo de problema é o caso dos Modelos de Regressão Múltipla, que explicam perfeitamente uma propriedade particular; mas a estimativa falha ao aplicar o mesmo Modelo de Regressão a outra propriedade com características físicas muito diferentes da primeira.

A regressão loglinear para modelos saturados e hierárquicos aplicados à avaliação imobiliária