Conceitos Fundamentais

Análise Estatística

Na análise estatística, modelos de regressão são utilizados para determinar um suposto efeito de variáveis explanatórias (independentes) sobre uma variável de resposta (dependente) (Fahrmeir et al. 2013; James et al. 2021). Em uma regressão linear simples, essa influência é representada por uma função que descreve uma linha, essa função é a determinação do efeito das variáveis explanatórias sobre a média condicional da variável de resposta (componente sistemático), mais os devios observados em relação aos valores esperados por essa função (componente aleatório) denominados como erros aleatórios (Fahrmeir et al. 2013).

A complexidade de modelos de regressão vai muito além de uma regressão linear simples, entre uma variável explanatória contínua e uma variável de resposta também contínua. Modelos de regressão podem determinar relações não lineares de diversas variáveis explanatórias, de diversas naturezas, sobre uma variável de resposta de diversas naturezas.

No caso da modelagem estatística de fenômenos complexos, como é o caso da ocorrência da , modelos de regressão lineares podem falhar na descrição da complexidade da relação entre as variáveis explanatórias e a variável de resposta. Nesse caso, modelos com pressupostos mais flexíveis que os de regressões lineares clássicas, podem ser mais apropriados, como é o caso de Modelos Aditivos Generalizados (GAMs), que permitem representar relações não lineares entre as variáveis explanatórias e de resposta (James et al. 2021; Fahrmeir et al. 2013). Porém, no caso dos GAMs, interações entre variáveis explanatórias não são levadas em consideração, exceto no caso dessas interações serem manualmente representadas como variáveis adicionais ou funções adicionais (James et al. 2021).

Algumas opções de escolha de modelos, ainda mais flexíveis que os GAMs, são o Random Forest (RF) e o Boosting (BDT), que são completamente não paramétricos (James et al. 2021; Berk 2006). Ambos são derivados do modelo de Árvores de Decisão (DT). Os modelos baseados em DT funcionam através da partição dos dados em análise de maneira sucessiva, que normalmente tem a descrição gráfica na forma de uma árvore invertida (Ville 2013). As vantagens desses tipos de modelos são a sua flexibilidade e facilidade de interpretação de seus resultados. Porém, é reconhecido que DTs geralmente sofrem por apresentarem uma menor acurácia de predição da variável de resposta. Alternativamente, RFs e BDTs são possíveis opções que normalmente apresentam maior acurácia de prediçãodo que DTs (James et al. 2021; Biau e Scornet 2016).

Referências

Berk, Richard A. 2006. «An Introduction to Ensemble Methods for Data Analysis». Sociological Methods & Research 34 (3): 263–95. https://doi.org/10.1177/0049124105283119.

Biau, Gérard, e Erwan Scornet. 2016. «A random forest guided tour». TEST 25 (2): 197–227. https://doi.org/10.1007/s11749-016-0481-7.

Fahrmeir, Ludwig, Thomas Kneib, Stefan Lang, e Brian Marx. 2013. Regression: Models, Methods and Applications. Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-642-34333-9.

James, Gareth, Daniela Witten, Trevor Hastie, e Robert Tibshirani. 2021. An Introduction to Statistical Learning: with Applications in R. Springer Texts in Statistics. Springer US. https://doi.org/10.1007/978-1-0716-1418-1.

Ville, Barry de. 2013. «Decision trees». WIREs Computational Statistics 5 (6): 448–55. https://doi.org/10.1002/wics.1278.