Федеральное государственное автономное образовательное


Регрессия с инструментальными переменными



страница8/13
Дата07.11.2016
Размер1.36 Mb.
Просмотров3236
Скачиваний0
1   ...   5   6   7   8   9   10   11   12   13

Регрессия с инструментальными переменными


Важной предпосылкой линейных регрессий является экзогенность заданных факторов, т.е. некоррелированность объясняющих переменных и случайной ошибки. Обратная ситуация может привести к смещенным и несостоятельным оценкам при применении стандартных методов оценивания (например, МНК). Одной из причин данной проблемы может являться проблема пропущенных существенных переменных (в нашем случае, пропущенной значимой объясняющей переменной может являться продвижение приложения через мобильный магазин (первые строчки для скачиваний и т.д.) или влияние рекламы в повседневной жизни).

Кроме того, следует отметить, что при имеющемся наборе данных можно предположить возможность одновременности, а точнее совместного влияния зависимой и независимых переменных друг от друга. Например, можно предположить, что рейтинг может влиять на количество скачиваний (если человек выбирает приложение по рейтингу, то рейтинг непосредственно влияет на желание скачать приложение), но и обратная связь может работать (если потребитель увидит популярность приложения, то и эта характеристика может послужить катализатором к последующей оценке). Так же цена может влиять на количество скачиваний (чем дешевле приложение, тем больше его покупают, например), но и обратная связь тоже возможна (чем больше масштаб продаж, тем ниже цена). Данную проблему в научном сообществе решают с помощью инструментальных переменных.

Инструментальные переменные – это переменные, которые коррелируют с «проблемными» регрессорами, но не коррелируют с ошибкой. В данном случае могут применяться два способа оценивания регрессионных параметров: двухшаговый метод наименьших квадратов(2ШМНК) и метод максимального правдоподобия с ограниченной информацией.

Как было замечено выше, одновременная связь может быть у рейтинга с загрузками. В исследовании имеются два вида рейтинга: общий и текущий. Но так как количество скачиваний приведено лишь за один месяц, то можно сказать, что общий рейтинг может влиять на объем загрузок, но вот этот объем не будет значимым фактором роста оценок в общем рейтинге, тем самым опровергается одновременная связь между этими переменными. А вот с текущим рейтингом вполне может сложиться обратная ситуация, поэтому в модели мы учтем только общий рейтинг. Это можно сделать в связи с тем, что общий рейтинг коррелирует с текущим, а значит мы можем оставить только один из них.

Другой такой объясняющей переменной является цена. Нужно подобрать такой инструмент, который коррелирует с ценой, но в тоже время не коррелирует с ошибкой (или с возможной пропущенной объясняющей переменной). Такими могут являться: количество приложений, выпущенных разработчиком (чем больше приложений, тем больше цена), размер приложения (рыночная цена косвенно учитывает себестоимость создания приложения, в результате, чем больше размер приложения, тем больше разработчики потратили времени и создали улучшенное по качеству приложение, т.е. размер коррелирует с ценой). Проверим эти предположения.

Из Таблица Зависимость цены от размера и публикаций разработчика (Россия)видно, что взаимосвязь между размером приложения и ценой существует и она значима, но в тот же момент загрузки не влияют на размер приложения. А вот между количеством приложений, выпущенных разработчиком и ценой, линейная связь отсутствует. Поэтому размер приложения – скорее всего сильный инструмент, который можно использовать в модели.



Таблица Зависимость цены от размера и публикаций разработчика (Россия)

Dependent Variable: PRICE_IN_EUR




Method: Least Squares







Sample: 1 112










Included observations: 112





































Variable

Coefficient

Std. Error

t-Statistic

Prob.  































SIZE_MB

0.002677

0.000409

6.550100

0.0000

APPS_PUBLISHED

-0.000597

0.001271

-0.469596

0.6396

C

1.276017

0.124262

10.26879

0.0000































R-squared

0.383626

    Mean dependent var

1.674464

Adjusted R-squared

0.372316

    S.D. dependent var

1.440705

S.E. of regression

1.141420

    Akaike info criterion

3.128844

Sum squared resid

142.0095

    Schwarz criterion

3.201661

Log likelihood

-172.2152

    Hannan-Quinn criter.

3.158388

F-statistic

33.92032

    Durbin-Watson stat

2.112308

Prob(F-statistic)

0.000000








































Построим модель с полученным инструментом (Таблица Проверка инструмента (Россия)).

Таблица Модель с инструментом (size_mb) (Россия)

. ivregress 2sls downloads_this_month ( price_in_eur= size_mb) all5 games healthandfitness socialnetworking time_in_market if id!="ru49" & id!="ru55" & id!="ru6" & id!="ru40", robust
Instrumental variables (2SLS) regression Number of obs = 105

Wald chi2(6) = 3663.80

Prob > chi2 = 0.0000

R-squared = 0.6456

Root MSE = 12205
------------------------------------------------------------------------------

| Robust


downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

price_in_eur | 4690.188 1813.469 2.59 0.010 1135.854 8244.522

all5 | 3.802472 .677183 5.62 0.000 2.475218 5.129727

games | -6883.665 2572.551 -2.68 0.007 -11925.77 -1841.559

healthandf~s | 70094.25 3157.42 22.20 0.000 63905.82 76282.68

socialnetw~g | 57555.8 10083.49 5.71 0.000 37792.53 77319.08

time_in_ma~t | -14.72253 4.394472 -3.35 0.001 -23.33553 -6.109521

_cons | 10892.92 3234.53 3.37 0.001 4553.361 17232.49

------------------------------------------------------------------------------

Instrumented: price_in_eur

Instruments: all5 games healthandfitness socialnetworking time_in_market

size_mb

Снова проверим, не являются ли наши инструменты слабыми.



Таблица Проверка инструмента (Россия)

. estat firststage


First-stage regression summary statistics

--------------------------------------------------------------------------

| Adjusted Partial Robust

Variable | R-sq. R-sq. R-sq. F(1,98) Prob > F

-------------+------------------------------------------------------------

price_in_eur | 0.4424 0.4082 0.4137 74.9552 0.0000

--------------------------------------------------------------------------

Коэффициент детерминации является относительно высоким (описательная способность 44%), F статистики выше часто используемого порога в 10 единиц, поэтому инструмент сильный.

Сравним IV и OLS-оценки с помощью теста Хаусмана(Таблица Тест Хаусмана (Россия)). Поскольку не отклоняется нулевая гипотеза, оценки коэффициентов в обеих регрессиях отличаются незначимо, значит, OLS дает состоятельные и эффективные оценки, а IV – только состоятельные. Можно предпочесть OLS модель.

Таблица Тест Хаусмана (Россия)

. hausman iv ols


---- Coefficients ----

| (b) (B) (b-B) sqrt(diag(V_b-V_B))

| iv ols Difference S.E.

-------------+----------------------------------------------------------------

price_in_eur | 4690.188 1730.467 2959.721 1012.042

all5 | 3.802472 3.712313 .090159 .0907816

games | -6883.665 -5126.541 -1757.124 861.93

healthandf~s | 70094.25 67460.25 2634 3140.421

socialnetw~g | 57555.8 55575.84 1979.965 3411.753

time_in_ma~t | -14.72253 -13.12542 -1.597112 1.137419

------------------------------------------------------------------------------

b = consistent under Ho and Ha; obtained from ivregress

B = inconsistent under Ha, efficient under Ho; obtained from regress
Test: Ho: difference in coefficients not systematic
chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B)

= 8.55


Prob>chi2 = 0.1283.


Попробовав другие предположительные инструменты, тест Хаусмана показывал такие же результаты, поэтому приводить данные результаты в работе не будем.

Пуассоновская регрессия


Зависимая переменная Downloads_This_Month представляет число событий (скачиваний), поэтому обычно используют три способа работы с такими данными: пуассоновская регрессия, негативная биноминальная регрессия, zero-inflated regression model.

Downloads_This_Month – дискретная величина (количество скачиваний приложений за месяц), принадлежащая области натуральных чисел, другими словами, это только положительные оценки. В таком случае, априори, нормальное распределение не подходит, потому что оно подразумевает как отрицательные, так и положительные величины, распределенные вокруг математического ожидания равного нулю, для непрерывной переменной.

В то время как Пуассоновская регрессия – это лог-линейная функция, параметры которой найдены с помощью метода максимального правдоподобия (максимизирует функция правдоподобия эмпирического распределения пуасссоновскому распределению). Это показывает, что мы имеем лог-линейную функцию, у которой изменение на единицу объясняющей переменной приводит к изменению зависимой переменной нa (eβ-1)*100%.

Таблица Пуассоновская регрессия (Россия)

. poisson downloads_this_month apps_published paid_in_app price_in_eur is_local iphoneonly iphoneipodtouch gameloft disney time_in_market all5 games healthandfitness socialnetworking size_mb

note: socialnetworking omitted because of collinearity


Iteration 0: log likelihood = -532725.65

Iteration 1: log likelihood = -186447.07

Iteration 2: log likelihood = -183293.74

Iteration 3: log likelihood = -183282.9

Iteration 4: log likelihood = -183282.9
Poisson regression Number of obs = 105

LR chi2(13) = 990985.35

Prob > chi2 = 0.0000

Log likelihood = -183282.9 Pseudo R2 = 0.7300


------------------------------------------------------------------------------

downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

apps_publi~d | -.0001645 8.85e-06 -18.59 0.000 -.0001818 -.0001471

paid_in_app | .1136139 .0020313 55.93 0.000 .1096327 .1175951

price_in_eur | .0383184 .0006595 58.11 0.000 .0370259 .0396109

is_local | -.0497754 .0025813 -19.28 0.000 -.0548346 -.0447161

iphoneonly | .9504373 .0049334 192.65 0.000 .940768 .9601066

iphoneipod~h | -.1699676 .001996 -85.16 0.000 -.1738796 -.1660556

gameloft | -.523014 .0030472 -171.64 0.000 -.5289864 -.5170415

disney | .2091281 .0039564 52.86 0.000 .2013738 .2168824

time_in_ma~t | -.000548 2.95e-06 -185.50 0.000 -.0005538 -.0005422

all5 | .0000978 1.69e-07 578.39 0.000 .0000974 .0000981

games | -.3364143 .0021495 -156.51 0.000 -.3406273 -.3322014

healthandf~s | 1.934748 .004422 437.53 0.000 1.926081 1.943414

socialnetw~g | (omitted)

size_mb | .000533 3.32e-06 160.63 0.000 .0005265 .0005395

_cons | 9.764455 .0017949 5439.99 0.000 9.760937 9.767973

------------------------------------------------------------------------------

Все коэффициенты значимы, что достаточно странно, поэтому можно предположить, что в модели существует гетероскедастичность такой формы, которую не учитывает модель. Так же проверим на чрезмерную дисперсию, которая может менять модель к обобщенному виду – Negative Binomial Model.



Negative Binomial Model – модификация пуассоновской регрессии, которая учитывает чрезмерную дисперсию. В модели как показатель является alpha, которая показывает степень такой дисперсии. Если alpha=0, то модель сводится к простой пуассоновской регрессии.

Таблица NB model

. nbreg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local gameloft disney time_in_market all5 books business education entertainment finance games healthandfitness lifestyle music photoandvideo productivity reference socialnetworking utilities weather size_mb number_lang

note: weather omitted because of collinearity
Negative binomial regression Number of obs = 105

LR chi2(25) = 133.20

Dispersion = mean Prob > chi2 = 0.0000

Log likelihood = -1068.2565 Pseudo R2 = 0.0587


------------------------------------------------------------------------------

downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

apps_publi~d | -.0007123 .0005932 -1.20 0.230 -.001875 .0004504

paid_in_app | .1181322 .1085006 1.09 0.276 -.0945251 .3307896

price_in_eur | .0554841 .0383271 1.45 0.148 -.0196357 .1306039

had_free_p~d | -.2008438 .1106949 -1.81 0.070 -.4178019 .0161142

is_local | -.0664979 .1571698 -0.42 0.672 -.3745451 .2415493

gameloft | -.5478543 .2397321 -2.29 0.022 -1.017721 -.077988

disney | .4332597 .2251464 1.92 0.054 -.0080191 .8745386

time_in_ma~t | -.0004987 .0001478 -3.37 0.001 -.0007884 -.000209

all5 | .000101 .0000126 8.03 0.000 .0000764 .0001257

books | -.7221149 .4873905 -1.48 0.138 -1.677383 .233153

business | -.3210152 .3197195 -1.00 0.315 -.9476539 .3056236

education | -.0245485 .3185785 -0.08 0.939 -.6489508 .5998538

entertainm~t | -.1422954 .2882116 -0.49 0.622 -.7071798 .4225889

finance | -.4202961 .3074502 -1.37 0.172 -1.022887 .1822952

games | -.4954923 .243751 -2.03 0.042 -.9732355 -.017749

healthandf~s | 1.622308 .4497041 3.61 0.000 .7409039 2.503712

lifestyle | -.7466399 .4412994 -1.69 0.091 -1.611571 .1182911

music | -.0510578 .2792787 -0.18 0.855 -.5984339 .4963184

photoandvi~o | -.1473253 .3153151 -0.47 0.640 -.7653314 .4706809

productivity | -.3614845 .3132151 -1.15 0.248 -.9753749 .2524058

reference | -.8123049 .5125673 -1.58 0.113 -1.816918 .1923085

socialnetw~g | .9135522 .521896 1.75 0.080 -.1093452 1.93645

utilities | -.1249298 .2482872 -0.50 0.615 -.6115637 .3617041

weather | (omitted)

size_mb | .0006469 .0002153 3.01 0.003 .000225 .0010688

number_lang | -.0082816 .0070221 -1.18 0.238 -.0220447 .0054814

_cons | 9.932196 .2410721 41.20 0.000 9.459703 10.40469

-------------+----------------------------------------------------------------

/lnalpha | -1.936543 .1348728 -2.200889 -1.672197

-------------+----------------------------------------------------------------

alpha | .1442016 .0194489 .1107047 .1878339

------------------------------------------------------------------------------

Likelihood-ratio test of alpha=0: chibar2(01) = 3.4e+05 Prob>=chibar2 = 0.000


После очищения регрессии, получились такие результаты:

Таблица NB regression (final)

. nbreg downloads_this_month apps_published price_in_eur had_free_period gameloft disney time_in_market all5 games healthandfitness socialnetworking size_mb

Negative binomial regression Number of obs = 105

LR chi2(11) = 122.47

Dispersion = mean Prob > chi2 = 0.0000

Log likelihood = -1073.626 Pseudo R2 = 0.0540


------------------------------------------------------------------------------

downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

apps_publi~d | -.0005248 .0006173 -0.85 0.395 -.0017346 .000685

price_in_eur | .0336976 .0361641 0.93 0.351 -.0371828 .1045781

had_free_p~d | -.1920101 .1095531 -1.75 0.080 -.4067302 .02271

gameloft | -.531181 .2528644 -2.10 0.036 -1.026786 -.0355758

disney | .3363287 .2328566 1.44 0.149 -.1200619 .7927192

time_in_ma~t | -.0005772 .0001379 -4.19 0.000 -.0008475 -.000307

all5 | .0001019 .0000131 7.76 0.000 .0000762 .0001277

games | -.1979649 .0918527 -2.16 0.031 -.3779929 -.0179369

healthandf~s | 1.844504 .4121797 4.47 0.000 1.036647 2.652361

socialnetw~g | .9590626 .4632428 2.07 0.038 .0511233 1.867002

size_mb | .0006152 .0002158 2.85 0.004 .0001922 .0010381

_cons | 9.727586 .0892139 109.04 0.000 9.55273 9.902442

-------------+----------------------------------------------------------------

/lnalpha | -1.839133 .1345577 -2.102861 -1.575405

-------------+----------------------------------------------------------------

alpha | .1589552 .0213886 .1221066 .2069238

------------------------------------------------------------------------------

Likelihood-ratio test of alpha=0: chibar2(01) = 3.7e+05 Prob>=chibar2 = 0.000
По результатам модель дает похожие результаты с лог-линейной моделью, значимы соответствующие коэффициенты и знаки у оценок одинаковы. Поэтому для того, чтобы решить, какая модель лучше, сравним их информационные критерии.

Таблица Информационные критерии для NB model

. estat ic


-----------------------------------------------------------------------------

Model | Obs ll(null) ll(model) df AIC BIC

-------------+---------------------------------------------------------------

. | 105 -1134.859 -1073.626 13 2173.252 2207.753


Поскольку информационные критерии у OLS модели ниже, то предпочтение стоит отдать именно ей.

Таблица Информационные критерии для OLS

. estat ic


-----------------------------------------------------------------------------

Model | Obs ll(null) ll(model) df AIC BIC

-------------+---------------------------------------------------------------

. | 105 -97.55111 -54.26168 8 124.5234 145.755



2.2.5. Рыночные атрибуты


В эконометрике в последнее время используют такую характеристику, как неявная цена атрибутов. Неявные цены на атрибуты (различные характеристики товара) определяются не от регрессии цен на вектор атрибутов, а от регрессии количества проданных величин (объема продаж) по цене и различным атрибутам. Основной задачей этого анализа является получение оценки, сколько потребитель готов заплатить за увеличение атрибута на 1 единицу при условии сохранения продаж прежними, другими словами, выявить скрытые цены атрибутов, которые отражают предельные нормы замещения потребителей между атрибутами.

Выводятся эти неявные цены на атрибуты с помощью теоремы о неявной функции.



Теорема о неявной функции

Пусть уравнение F(x; y) = 0 имеет решение (х0; у0), причем частные производные непрерывны в точке (х0; у0) и вторая из них (по переменной у) отлична от нуля в этой точке. Тогда в достаточно малой окрестности точки х0 существует одна и только одна непрерывная функция у(х), такая, что у(х0) = у0.  При этом справедливо равенство:


img10
причем эта производная непрерывна в указанной окрестности точки х0.

Рыночная ценность атрибутов

В нашем случае мы имеем такую гедоническую модель:



,

где Zi – набор различных характеристик, P – цены приложения.



где – рыночная ценность атрибутов.

Найдем рыночную стоимость атрибутов по сегменту российского рынка приложений. Поскольку в линейной и лог-линейной модели взаимосвязь между загрузками и ценой практически отсутствует и коэффициент оценки цены как объясняющей переменной не значим, рыночные атрибуты будем считать только по модели с инструментальными переменными.

Таблица Рыночная ценность атрибутов



Объясняющие переменные

Коэффициенты IV

π

ALL5

3,80247

-0,00081

CATEGORY3="Games"

-6883,66500

1,46767

CATEGORY3="Health and Fitness"

70094,25000

-14,94487

CATEGORY3="Social Networking"

57555,80000

-12,27153

TIME_IN_MARKET

-14,72253

0,00314

PRICE_IN_EUR

4690,18800

 

Поскольку цена положительно влияет на загрузки, другими словами, чем выше цена, тем выше загрузки (что странно, особенно если учитывать, что большая часть выборки находится в нижнем уровне цены). Но с данной точки зрения, у нас меняются полностью ценности рыночных атрибутов в противоположную сторону, т.е. ценность отличных оценок в рейтинге падает, ценность крупнейших категорий тоже. Возможной причиной данной особенности рынка является наличие на рынке крайне популярных приложений, которые являются одними из самых дорогих приложений на рынке в данном сегменте. Поэтому зависимость загрузок и цены имеет восходящую траекторию, что мешает дальнейшим интерпретациям.


Каталог: data -> 2013
2013 -> Федеральное государственное автономное образовательное
2013 -> «Визуальный образ персонажей массового кинематогрфа в историческом контексте»
2013 -> 2 раздел анализ предметной области 5
2013 -> Магистерская диссертация
2013 -> Влияние вовлеченности на готовность платить за коллекционные товары
2013 -> Выражение гендерных характеристик в англоязычном "глянцевом" дискурсе
2013 -> Продакт Плейсмент и перспективы его развития в сети Интернет
2013 -> 1Лекции первого полугодия
2013 -> «Правовое рассмотрение компьютерного мошенничества», Ницца, 22 октября 1992 года, грамота «весьма достойно»


Поделитесь с Вашими друзьями:
1   ...   5   6   7   8   9   10   11   12   13


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал