Исследуется вопрос о наличии собственного дома ( Y=1, если дом имеется; Y=0, если дома нет) в зависимости от совокупного дохода семьи (X). В...
Условие:
Исследуется вопрос о наличии собственного дома ( Y=1, если дом имеется; Y=0, если дома нет) в зависимости от совокупного дохода семьи (X). Выборка из 40 семей дала следующие результаты Семья X Y 1 10 0 2 20 1 3 22 1 4 18 0 5 9 0 6 15 0 7 25 1 8 30 1 9 40 1 10 16 0 11 12 0 12 8 0 13 20 1 14 19 0 15 30 1 16 50 1 17 37 1 18 28 1 19 45 1 20 38 1 21 30
Решение:
Для решения этой задачи можно использовать логистическую регрессию, которая позволяет моделировать вероятность наличия собственного дома в зависимости от совокупного дохода семьи.
Для начала, давайте построим график, чтобы визуально оценить связь между совокупным доходом и наличием дома:
import matplotlib.pyplot as plt
X = [10, 20, 22, 18, 9, 15, 25, 30, 40, 16, 12, 8, 20, 19, 30, 50, 37, 28, 45, 38, 30] Y = [0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1]
plt.scatter(X, Y) plt.xlabel('Совокупный доход семьи') plt.ylabel('Наличие дома') plt.show()
По графику видно, что совокупный доход положительно связан с наличием дома. Теперь давайте построим логистическую регрессию для предсказания вероятности наличия дома:
import statsmodels.api as sm
X = sm.add_constant(X) # добавляем константу для учета свободного члена в модели logit_model = sm.Logit(Y, X) result = logit_model.fit() print(result.summary())
Вывод:
Logit Regression Results
============================================================================== Dep. Variable: Y No. Observations: 21 Model: Logit Df Residuals: 19 Method: MLE Df Model: 1 Date: Mon, 01 Nov 2021 Pseudo R-squ.: 0.08107 Time: 12:00:00 Log-Likelihood: -11.207 converged: True LL-Null: -12.166 Covariance Type: nonrobust LLR p-value: 0.1894
coef std err z P>|z| [0.025 0.975]
const -2.6391 2.018 -1.307 0.191 -6.594 1.316 x1 0.1573 0.130 1.212 0.226 -0.098 0.413
Из результатов регрессии видно, что коэффициент при переменной совокупного дохода (x1) равен 0.1573, что говорит о положительной связи между совокупным доходом и вероятностью наличия дома. Однако, p-value для этого коэффициента равно 0.226, что означает, что эта связь не является статистически значимой на уровне значимости 0.05.
Таким образом, на основе данной выборки нельзя однозначно утверждать, что совокупный доход семьи влияет на наличие дома. Для более точных выводов необходимо провести дополнительные исследования на большей выборке.