Федеральное государственное автономное образовательное


Регрессионный анализ для рынка Соединенных Штатов Америки



страница9/13
Дата07.11.2016
Размер1.36 Mb.
Просмотров3059
Скачиваний0
1   ...   5   6   7   8   9   10   11   12   13

2.3. Регрессионный анализ для рынка Соединенных Штатов Америки

2.3.1.Описательные статистики


Теперь сделаем подобный анализ для сегмента рынка мобильных приложений относительно США. В данном случае, многие комментарии будем опускать, если он будет аналогичен предыдущему анализу для России.

В первую очередь приведем общую описательную таблицу всех переменных. Как видно из таблицы (Таблица Описательные статистики переменных в сегменте американского рынка), общее количество наблюдений, в среднем, составляет 112 (за исключением, переменной featured, которая показывает рейтинг приложения в iTunes), поскольку не у всех приложений были заполнены рейтинги (у новых приложений отсутствует общий рейтинг, а у некоторых приложений, которые давно не выпускали обновления, соответственно, отсутствует рейтинг последней версии). Следует обратить внимание на зависимую переменную downloads_this_month, среднее которой составляет 123970,5 скачиваний, примерно около той же величины составляет дисперсия данной величины (117944,5), при этом минимальное количество загрузок составляет 45600, а максимальное 679500, следовательно, размах количества скачиваний приложений будет более 630 тысяч раз.

Таблица Описательные статистики переменных в сегменте американского рынка

. summarize apps_published - rated9


Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

apps_publi~d | 112 63.90179 113.0439 1 482

paid_in_app | 112 .5446429 .5002413 0 1

price_in_eur | 112 1.514732 1.331577 .75 7.61

had_free_p~d | 112 .0535714 .226182 0 1

is_local | 112 .125 .3322053 0 1

-------------+--------------------------------------------------------



downloads_~h | 112 123970.5 117944.5 45600 679500

price_usd | 112 2.034643 1.777681 .99 9.99

iphoneonly | 112 .0089286 .0944911 0 1

iphoneipod~h | 112 .3571429 .481311 0 1

iphoneitouch | 112 .0089286 .0944911 0 1

-------------+--------------------------------------------------------

universal | 112 .625 .4862988 0 1

curr5 | 112 3488.143 11216.11 17 102186

curr4 | 112 581.8571 2222.677 1 23206

curr3 | 112 175.6071 452.0858 0 4179

-------------+--------------------------------------------------------

curr2 | 112 76 137.0002 0 716

curr1 | 112 138.8571 245.5445 1 1416

all5 | 105 39780.79 90923.25 711 639390

all4 | 105 6556.676 15146 80 97229

all3 | 105 2204.895 5052.1 26 40457

-------------+--------------------------------------------------------

all2 | 105 1089.171 2370.015 10 19248

all1 | 105 2065.933 4266.379 22 26168

business | 112 .0178571 .1330273 0 1

education | 112 .0178571 .1330273 0 1

entertainm~t | 112 .0089286 .0944911 0 1

-------------+--------------------------------------------------------

games | 112 .75 .4349588 0 1

healthandf~s | 112 .0267857 .1621823 0 1

music | 112 .0357143 .1864109 0 1

photoandvi~o | 112 .0357143 .1864109 0 1

productivity | 112 .0089286 .0944911 0 1

-------------+--------------------------------------------------------

socialnetw~g | 112 .0089286 .0944911 0 1

utilities | 112 .0446429 .2074466 0 1

weather | 112 .0446429 .2074466 0 1

size_mb | 112 127.9429 312.319 1.1 1600

number | 112 5.053571 5.615037 0 32

-------------+--------------------------------------------------------

rated12 | 112 .0892857 .2864373 0 1

rated17 | 112 .1160714 .3217502 0 1

rated4 | 112 .5982143 .4924625 0 1

rated9 | 112 .1875 .3920666 0 1

Аналогично, рассмотрим описательные статистики переменной Downloads_This_Month, которая отражает количество скачиваний приложений за последний месяц, она же будет являться зависимой переменной при анализе. График распределения переменной и график нормального распределения представлен ниже (Рисунок Распределение переменной downloads_this_month (США)).



Рисунок Распределение переменной downloads_this_month (США)

Как видно из графика распределение далеко от нормального, в доказательство приведем тест на нормальность распределения. Нулевая гипотеза гласит, что распределение нормально. Поскольку значимость (probability, далее prob)<0.05, то гипотеза о нормальности распределения загрузок отвергается. Следовательно, высока вероятность, что и остатки в регрессии не будут распределены нормально. Следует отметить, что распределение цены сильно несимметрично (асимметрия, отличаются от нуля, эксцесс – от трех, и медиана отлична от среднего). Подобный разброс количества скачиваний может быть связан с различными характеристиками приложений.

Таблица Тест Франция на нормальность распределение величины (США)

. sfrancia downloads_this_month
Shapiro-Francia W' test for normal data
Variable | Obs W' V' z Prob>z

-------------+--------------------------------------------------

downloads_~h | 112 0.61982 37.700 6.812 0.00001
Попробуем преобразовать переменную downloads_this_month в логарифм. Получим lndownloads. Распределение представлено ниже. Графически оно уже ближе к нормальному, чем первоначальное.



Рисунок Распределение переменной lndownloads (США)

Снова отметим, что исходная величина не подразумевает наличие отрицательных значений и представляет собой целочисленные значения, поэтому логарифмирование не дает значимых результатов, поэтому исходя из графика распределения, можно предположить, что зависимая переменная может иметь пуассоновское распределение, однако к этому вопросу мы обратимся в параграфе Регрессионный анализ.

Как было уже отмечено на российском рынке: цены на рынке - сложившаяся категория, которая имеет несколько градаций.

Как видно из Таблица Распределение категориальной переменной price_in_eur (США) около 60% - это минимальная цена, что говорит о том,что большинство приложений – средняя категория, в которой могут представлены как известные «бренды», как и малоизвестные платные приложения. Кроме того, по 19% и 12% от выборки занимают цены второй и третьей ступени (1,52 евро и 2,28 евро, соответственно).



Таблица Распределение категориальной переменной price_in_eur (США)

Tabulation of PRICE_IN_EUR







Sample: 1 111










Included observations: 111







Number of categories: 6














































Cumulative

Cumulative

Value

Count

Percent

Count

Percent

 0.75

65

58.56

65

58.56

 1.52

21

18.92

86

77.48

 2.28

13

11.71

99

89.19

 3.80

5

4.50

104

93.69

 5.33

6

5.41

110

99.10

 7.61

1

0.90

111

100.00

Total

111

100.00

111

100.00






























Так же рассмотрим категориальные переменные. По категориям приложений () следует отметить преимущество игр (Category – Games) 75% выборки, следующая по количеству – Утилиты (около 4%), далее – Weather (4%) и остальные.



Таблица Распределение категориальной переменной Category (США)

Tabulation of CATEGORY







Sample: 1 112










Included observations: 112







Number of categories: 11














































Cumulative

Cumulative

Value

Count

Percent

Count

Percent

Business

2

1.79

2

1.79

Education

2

1.79

4

3.57

Entertainment

1

0.89

5

4.46

Games

84

75.00

89

79.46

Health and Fitness

3

2.68

92

82.14

Music

4

3.57

96

85.71

Photo and Video

4

3.57

100

89.29

Productivity

1

0.89

101

90.18

Social Networking

1

0.89

102

91.07

Utilities

5

4.46

107

95.54

Weather

5

4.46

112

100.00

Total

112

100.00

112

100.00






























Оценивая совместимость устройств и приложений, универсальные приложения занимают весомую долю на рынке, как и на российском рынке, т.е. большинство приложений существует как на iPhone market, так же и на Android и других рынках мобильных приложений.



Таблица Распределение категориальной переменной Compatibility (США)

Tabulation of COMPATIBILITY







Sample: 1 112










Included observations: 112







Number of categories: 4














































Cumulative

Cumulative

Value

Count

Percent

Count

Percent

iPhone Only

1

0.89

1

0.89

iPhone, iPod touch

40

35.71

41

36.61

iPhone, iTouch

1

0.89

42

37.50

Universal

70

62.50

112

100.00

Total

112

100.00

112

100.00































Если говорить о других характеристиках, то ситуация похожая на российский рынок. Приложений, имеющих бесплатный период пользования всего 6 из 106 (около 6%), приложений, преимущественно распространяемых внутри страны всего 14/92=13%, а виды монетизации распределены поровну.

2.3.2.Корреляционный анализ


Для выявления взаимосвязей среди переменных часто используются два способа:

  • парные корреляции;

  • матрица диаграмм рассеяния.

Приведем коэффициенты корреляций основных объясняющих переменных с зависимой переменной (Таблица Коэффициенты корреляции между загрузками и другими характеристиками (США)).

Таблица Коэффициенты корреляции между загрузками и другими характеристиками (США)



Correlation

Probability

DOWNLOADS_THIS_MONTH 

ALL1 

0.168179




0.0961

ALL2 

0.100541




0.3221

ALL3 

0.118059




0.2445

ALL4 

0.163361




0.1062

ALL5 

0.161995




0.1092

CURR1 

0.158796




0.1164

CURR2 

0.221807




0.0273

CURR3 

0.307432




0.0020

CURR4 

0.405662




0.0000

CURR5 

0.434273




0.0000

TIME_IN_MARKET 

0.092380




0.3486

SIZE_MB 

0.323846




0.0008

PRICE_IN_EUR 

0.042432




0.6674

NUMBER_LANG 

0.206995




0.0341

APPS_PUBLISHED 

0.205166




0.0358

Максимальный коэффициент корреляции наблюдается у переменной curr5, которая показывает количество текущих отличных оценок в рейтинге. Так же имеется несильная линейная связь между загрузками, размером, количеством языков в приложении и масштаб компании разработчика.



2.3.3. Проверка на выбросы


Для проверки данных на выбросы построим регрессию, которая будет включать большинство регрессоров (не берем curr рейтинг, поскольку он сильно коррелирует с общим рейтингом).

Вообще между категориями общего рейтинга тоже существует обоснованная сильная корреляция (поэтому можно предполагать, что в нашей модели будет мультиколлинеарность, но поскольку с экономической точки зрения нам важно оценить влияние рейтинга/оценок приложения, то пока эти переменные оставим совместно.

quietly reg lndownloads apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly iphoneipodtouch iphoneitouch universal time_in_market all5 all4 all3 all2 all1 business education entertainment games healthandfitness music photoandvideo productivity socialnetworking utilities weather size_mb number

Проверим регрессию на выбросы. С помощью нескольких способов, которые можно реализовать в Stata. Поскольку мы так же имеем несовершенство информации, некоторые рейтинги пропущены, поэтому данные способы выявления выбросов отмечают именно эти наблюдения. Придется их удалить для дальнейшего полноценного анализа. Насчет выбросов, в дальнейшем исследовании на основе экспертного мнению будет выявлено, улучшаются ли модели с учетом этих выбросов или нет.

Таблица Проверка на выбросы (США)

. list id rstud lndownloads size_mb time_in_market price_in_eur all5 if abs(rstud) > 2.2


+---------------------------------------------------------------------+

| id rstud lndown~s size_mb time_i~t price_~r all5 |

|---------------------------------------------------------------------|

7. | us7 . 11.62178 33.1 . .75 . |

12. | us12 3.040048 13.08591 20.6 217 .75 14599 |

15. | us15 4.105638 13.27885 3.2 443 5.33 8649 |

17. | us17 2.465168 12.33491 20.2 1239 .75 36494 |

19. | us19 . 10.8893 5.2 . 1.52 . |

|---------------------------------------------------------------------|

33. | us33 . 10.95606 3.9 . 2.28 . |

35. | us35 . 12.2244 46.1 . 2.28 2126 |

39. | us39 . 11.00377 258.1 . 2.28 . |

42. | us42 . 10.99709 45.6 . .75 . |

48. | us48 2.408624 13.2269 72.1 994 .75 385973 |

|---------------------------------------------------------------------|

52. | us52 2.602277 13.02497 43.7 291 .75 74683 |

56. | us56 . 12.6398 28.9 . .75 . |

71. | us71 . 11.55503 34.1 . .75 639390 |

99. | us99 . 10.93489 127.9 . .75 . |

+---------------------------------------------------------------------+

. list id cooksd dfits if dfits>2*sqrt(25/102) & (cooksd>4/102)
+----------------------------+

| id cooksd dfits |

|----------------------------|

3. | us3 .0792283 1.444949 |

4. | us4 .1132109 . |

7. | us7 . . |

15. | us15 .2022953 2.521315 |

17. | us17 .1386482 1.961038 |

|----------------------------|

19. | us19 . . |

23. | us23 .0428728 1.048821 |

24. | us24 .2012638 2.272445 |

33. | us33 . . |

35. | us35 . . |

|----------------------------|

37. | us37 .0785847 1.440649 |

39. | us39 . . |

42. | us42 . . |

48. | us48 .5203698 3.792674 |

56. | us56 . . |

|----------------------------|

71. | us71 . . |

99. | us99 . . |

+----------------------------+




2.2.4. Регрессионный анализ сегмента американского рынка

Базовая линейная модель


Аналогично первому анализу, для рассмотрения основных возможных взаимосвязей построим первоначальную линейную модель со всеми объясняющими переменными.

Таблица Базовая линейная модель (США)

. reg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly iphoneipodtouch iphoneitouch time_in_market curr5 curr4 curr3 curr2 curr1 business education entertainment games healthandfitness music photoandvideo productivity utilities weather size_mb number rated12 rated17 rated9

note: productivity omitted because of collinearity


Source | SS df MS Number of obs = 99

-------------+------------------------------ F( 28, 70) = 3.44

Model | 5.0296e+11 28 1.7963e+10 Prob > F = 0.0000

Residual | 3.6547e+11 70 5.2210e+09 R-squared = 0.5792

-------------+------------------------------ Adj R-squared = 0.4108

Total | 8.6842e+11 98 8.8615e+09 Root MSE = 72256


------------------------------------------------------------------------------

downloads_~h | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

apps_publi~d | 104.9052 90.53894 1.16 0.251 -75.66903 285.4794

paid_in_app | 32875.22 21708.44 1.51 0.134 -10420.91 76171.34

price_in_eur | -3790.547 7788.958 -0.49 0.628 -19325.13 11744.04

had_free_p~d | -15203.85 36419.57 -0.42 0.678 -87840.39 57432.69

is_local | -17289.68 24678.51 -0.70 0.486 -66509.42 31930.06

iphoneonly | 152571.6 131514.4 1.16 0.250 -109725.5 414868.7

iphoneipod~h | 11358.26 19029.01 0.60 0.553 -26593.9 49310.41

iphoneitouch | -11795.11 90422.71 -0.13 0.897 -192137.5 168547.3

time_in_ma~t | -32.04789 22.43776 -1.43 0.158 -76.79859 12.70282

curr5 | 11.20923 4.225806 2.65 0.010 2.781131 19.63734

curr4 | -57.76782 50.98474 -1.13 0.261 -159.4537 43.91803

curr3 | 227.6518 340.9689 0.67 0.507 -452.3892 907.6927

curr2 | -170.3091 694.7582 -0.25 0.807 -1555.961 1215.342

curr1 | -66.94473 159.1886 -0.42 0.675 -384.4364 250.5469

business | -6977.541 98315.38 -0.07 0.944 -203061.4 189106.3

education | 85046 105073.7 0.81 0.421 -124516.8 294608.8

entertainm~t | 16847.24 113919.1 0.15 0.883 -210357.3 244051.8

games | 9860.194 83148.15 0.12 0.906 -155973.6 175694

healthandf~s | -22050.53 96583.14 -0.23 0.820 -214679.5 170578.5

music | 70556.24 90569.52 0.78 0.439 -110079 251191.5

photoandvi~o | -2053.071 101318 -0.02 0.984 -204125.4 200019.3

productivity | (omitted)

utilities | 12597.44 87408.39 0.14 0.886 -161733.1 186928

weather | 33057.24 91533.91 0.36 0.719 -149501.4 215615.9

size_mb | -9.887434 37.57099 -0.26 0.793 -84.82042 65.04555

number | -600.9687 2057.096 -0.29 0.771 -4703.717 3501.78

rated12 | 2147.549 30731.08 0.07 0.944 -59143.67 63438.76

rated17 | 24356.92 36462.86 0.67 0.506 -48365.95 97079.8

rated9 | 24572.67 22186.92 1.11 0.272 -19677.75 68823.09

_cons | 68665.91 89272.62 0.77 0.444 -109382.7 246714.5

------------------------------------------------------------------------------


Все объясняющие переменные не значимы в модели, кроме отличных оценок в текущем рейтинге. Возможно это ошибка спецификации, поэтому проверим лог-линейную модель.

Таблица Лог-линейная модель (США)

. reg lndownloads apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly iphoneipodtouch iphoneitouch time_in_market curr5 curr4 curr3 curr2 curr1 business education entertainment games healthandfitness music photoandvideo productivity utilities weather size_mb number rated12 rated17 rated9

note: productivity omitted because of collinearity


Source | SS df MS Number of obs = 99

-------------+------------------------------ F( 28, 70) = 2.12

Model | 14.4659854 28 .516642337 Prob > F = 0.0060

Residual | 17.0582488 70 .243689269 R-squared = 0.4589

-------------+------------------------------ Adj R-squared = 0.2424

Total | 31.5242343 98 .32167586 Root MSE = .49365


------------------------------------------------------------------------------

lndownloads | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

apps_publi~d | .0010325 .0006186 1.67 0.100 -.0002012 .0022661

paid_in_app | .1885157 .1483104 1.27 0.208 -.1072801 .4843115

price_in_eur | -.0370278 .0532136 -0.70 0.489 -.1431589 .0691033

had_free_p~d | -.1147552 .2488157 -0.46 0.646 -.6110025 .3814921

is_local | -.1593463 .1686017 -0.95 0.348 -.4956118 .1769192

iphoneonly | 1.611662 .8984962 1.79 0.077 -.1803325 3.403656

iphoneipod~h | .0749301 .1300047 0.58 0.566 -.1843562 .3342163

iphoneitouch | -.2386594 .6177611 -0.39 0.700 -1.470745 .9934262

time_in_ma~t | -.0002316 .0001533 -1.51 0.135 -.0005373 .0000742

curr5 | .0000842 .0000289 2.91 0.005 .0000266 .0001417

curr4 | -.0004723 .0003483 -1.36 0.179 -.001167 .0002224

curr3 | .0010359 .0023295 0.44 0.658 -.0036101 .0056818

curr2 | .000952 .0047465 0.20 0.842 -.0085147 .0104186

curr1 | -.0009363 .0010876 -0.86 0.392 -.0031054 .0012328

business | .0785652 .6716832 0.12 0.907 -1.261065 1.418195

education | .8575749 .7178553 1.19 0.236 -.5741423 2.289292

entertainm~t | .2816577 .7782869 0.36 0.719 -1.270587 1.833902

games | .3119412 .5680619 0.55 0.585 -.8210225 1.444905

healthandf~s | -.1015027 .6598487 -0.15 0.878 -1.417529 1.214524

music | .8914682 .6187641 1.44 0.154 -.3426178 2.125554

photoandvi~o | .1513727 .6921969 0.22 0.828 -1.22917 1.531916

productivity | (omitted)

utilities | .3575022 .5971675 0.60 0.551 -.8335108 1.548515

weather | .4405185 .6253528 0.70 0.484 -.8067083 1.687745

size_mb | -.0000736 .0002567 -0.29 0.775 -.0005856 .0004383

number | -.0082871 .0140539 -0.59 0.557 -.0363167 .0197426

rated12 | .0444444 .2099524 0.21 0.833 -.3742925 .4631813

rated17 | .2975749 .2491115 1.19 0.236 -.1992623 .794412

rated9 | .1236601 .1515794 0.82 0.417 -.1786554 .4259756

_cons | 10.95965 .6099037 17.97 0.000 9.74324 12.17607

------------------------------------------------------------------------------

Ситуация меняется незначительно.

Попробуем удалить некоторые незначимые переменные.



Таблица Очищенная лог-линейная модель (США)

. reg lndownloads price_in_eur curr5 music photoandvideo socialnetworking time_in_market size_mb


Source | SS df MS Number of obs = 99

-------------+------------------------------ F( 7, 91) = 6.26

Model | 10.2475064 7 1.46392948 Prob > F = 0.0000

Residual | 21.2767279 91 .233810196 R-squared = 0.3251

-------------+------------------------------ Adj R-squared = 0.2731

Total | 31.5242343 98 .32167586 Root MSE = .48354


------------------------------------------------------------------------------

lndownloads | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

price_in_eur | -.0700712 .0434439 -1.61 0.110 -.1563672 .0162249

curr5 | .0000227 4.63e-06 4.90 0.000 .0000135 .0000319

music | .4915084 .2863931 1.72 0.090 -.0773763 1.060393

photoandvi~o | -.4367628 .2868629 -1.52 0.131 -1.006581 .1330552

socialnetw~g | .9630451 .5045592 1.91 0.059 -.0391998 1.96529

time_in_ma~t | -.0002238 .0001299 -1.72 0.088 -.0004818 .0000343

size_mb | .0002909 .0001754 1.66 0.101 -.0000576 .0006394

_cons | 11.49496 .0906454 126.81 0.000 11.31491 11.67502
Таблица Информационные критерии для лог-линейной модели (США)

. estat ic


-----------------------------------------------------------------------------

Model | Obs ll(null) ll(model) df AIC BIC

-------------+---------------------------------------------------------------

. | 99 -83.82893 -64.36837 8 144.7367 165.4977

-----------------------------------------------------------------------------

При замене объясняющей переменной – цены на категориальные переменные ситуация не меняется.

На примере предыдущего анализа можно увидеть, что рынок приложений в Америке существенно отличается от рынка приложений в России. Среднестатистический американец, выходя на рынок мобильных приложений, готов потратить определенную сумму на покупку приложений. Таким образом, единственным важным критерием при выборе приложения для него остается только рекомендации/оценки других потребителей, а так популярность разработчика. Поэтому в модели для США значимыми оказываются лишь текущий рейтинг приложения (количество отличных оценок) и два вида категорий приложений и как долго приложение находится на рынке.

Следует отметить, что так же рынок мобильных приложений достаточно конкурентный, поэтому важным фактором при выборе приложения является пиар-кампания разработчика, что является существенной пропущенной переменной. Но данную переменную у нас нет возможности оценить, а использовать инструментальные переменные для решения данной проблемы мы не можем из-за отсутствия сильных инструментов.



Регрессия с инструментальными переменными


Проведем экспресс-анализ инструментальных переменных в случае сегмента рынка США. Предпосылки остаются теми же, что на российском рынке, а точнее, что цена может влиять на количество скачиваний (чем дешевле приложение, тем больше его покупают, например), но и обратная связь тоже возможна (чем больше масштаб продаж, тем ниже цена).

Построим модель с полученным инструментом (Таблица Проверка инструмента (Россия)).



Таблица Модель с инструментом (size_mb) (США)

ivregress 2sls downloads_this_month ( price_in_eur= size_mb) curr5 music photoandvideo socialnetworking time_in_market


Instrumental variables (2SLS) regression Number of obs = 99

Wald chi2(6) = 98.99

Prob > chi2 = 0.0000

R-squared = 0.4909

Root MSE = 66824
------------------------------------------------------------------------------

downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

price_in_eur | 6127.283 9768.047 0.63 0.530 -13017.74 25272.3

curr5 | 5.911703 .6425702 9.20 0.000 4.652289 7.171118

music | 35930.96 39495.1 0.91 0.363 -41478 113339.9

photoandvi~o | -44365.58 39746.08 -1.12 0.264 -122266.5 33535.31

socialnetw~g | 115479.4 70225.11 1.64 0.100 -22159.34 253118.1

time_in_ma~t | -38.4401 17.91142 -2.15 0.032 -73.54584 -3.334369

_cons | 98356.74 17037.2 5.77 0.000 64964.45 131749

------------------------------------------------------------------------------

Instrumented: price_in_eur

Instruments: curr5 music photoandvideo socialnetworking time_in_market

size_mb


Снова проверим, не являются ли наши инструменты слабыми.

Таблица Проверка инструмента (США)

. estat firststage


First-stage regression summary statistics

--------------------------------------------------------------------------

| Adjusted Partial

Variable | R-sq. R-sq. R-sq. F(1,92) Prob > F

-------------+------------------------------------------------------------

price_in_eur | 0.2954 0.2495 0.2742 34.756 0.0000

--------------------------------------------------------------------------

Коэффициент детерминации является относительно высоким (описательная способность 30%), F статистики выше часто используемого порога в 10 единиц, поэтому инструмент сильный.

Сравним IV и OLS-оценки с помощью теста Хаусмана (ссылка). Поскольку не отклоняется нулевая гипотеза, оценки коэффициентов в обеих регрессиях отличаются незначимо, значит, OLS дает состоятельные и эффективные оценки, а IV – только состоятельные. Можно предпочесть OLS модель.

Таблица Тест Хаусмана (США)

. hausman iv ols


Note: the rank of the differenced variance matrix (5) does not equal the number of coefficients being tested (6); be sure

this is what you expect, or there may be problems computing the test. Examine the output of your estimators for

anything unexpected and possibly consider scaling your variables so that the coefficients are on a similar scale.
---- Coefficients ----

| (b) (B) (b-B) sqrt(diag(V_b-V_B))

| iv ols Difference S.E.

-------------+----------------------------------------------------------------

price_in_eur | 6127.283 -.0700712 6127.353 9768.047

curr5 | 5.911703 .0000227 5.911681 .6425702

music | 35930.96 .4915084 35930.47 39495.1

photoandvi~o | -44365.58 -.4367628 -44365.14 39746.08

socialnetw~g | 115479.4 .9630451 115478.4 70225.11

time_in_ma~t | -38.4401 -.0002238 -38.43988 17.91142

------------------------------------------------------------------------------

b = consistent under Ho and Ha; obtained from ivregress

B = inconsistent under Ha, efficient under Ho; obtained from regress
Test: Ho: difference in coefficients not systematic
chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B)

= 7.78


Prob>chi2 = 0.1686

Других сильных инструментов для данного случая не удалось найти.



Пуассоновская регрессия


Исходя из таких предположений, как на российском рынке, проверим метод пуассоновского распределения на наших данных.

Пуассоновская регрессия – это лог-линейная функция, параметры которой найдены с помощью метода максимального правдоподобия (максимизирует функция правдоподобия эмпирического распределения пуассоновскому распределению). Это показывает, что мы имеем лог-линейную функцию, у которой изменение на единицу объясняющей переменной приводит к изменению зависимой переменной нa (eβ-1)*100%.

Таблица Пуассоновская регрессия (США)

. poisson downloads_this_month price_in_eur curr5 music socialnetworking time_in_market size_mb


Iteration 0: log likelihood = -7517784.6

Iteration 1: log likelihood = -1604138.4

Iteration 2: log likelihood = -1528382.2

Iteration 3: log likelihood = -1528076.7

Iteration 4: log likelihood = -1528076.7
Poisson regression Number of obs = 99

LR chi2(6) = 2147639.38

Prob > chi2 = 0.0000

Log likelihood = -1528076.7 Pseudo R2 = 0.4127


------------------------------------------------------------------------------

downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

price_in_eur | -.0928779 .0003182 -291.92 0.000 -.0935015 -.0922543

curr5 | .000019 1.22e-08 1557.16 0.000 .000019 .000019

music | .406546 .0015847 256.54 0.000 .40344 .4096521

socialnetw~g | .9579878 .0022119 433.10 0.000 .9536525 .9623232

time_in_ma~t | -.0003149 9.19e-07 -342.69 0.000 -.0003167 -.0003131

size_mb | .0003595 1.09e-06 330.73 0.000 .0003574 .0003616

_cons | 11.689 .0005871 2.0e+04 0.000 11.68785 11.69015

------------------------------------------------------------------------------
. estat ic
-----------------------------------------------------------------------------

Model | Obs ll(null) ll(model) df AIC BIC

-------------+---------------------------------------------------------------

. | 99 -2601896 -1528077 7 3056167 3056186

-----------------------------------------------------------------------------

Note: N=Obs used in calculating BIC; see [R] BIC note


Так же как на российском рынке все коэффициенты значимы, что достаточно странно, поэтому проверим на чрезмерную дисперсию, построив Negative Binomial Model.

Negative Binomial Model – модификация пуассоновской регрессии, которая учитывает чрезмерную дисперсию. В модели как показатель является alpha, которая показывает степень такой дисперсии. Если alpha=0, то модель сводится к простой пуассоновской регрессии.

Таблица NB model

. nbreg downloads_this_month price_in_eur curr5 music socialnetworking time_in_market size_mb


Negative binomial regression Number of obs = 99

LR chi2(6) = 45.09

Dispersion = mean Prob > chi2 = 0.0000

Log likelihood = -1205.2372 Pseudo R2 = 0.0184


------------------------------------------------------------------------------

downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

price_in_eur | -.0723107 .0428266 -1.69 0.091 -.1562493 .0116279

curr5 | .0000232 5.71e-06 4.06 0.000 .000012 .0000343

music | .381116 .2928132 1.30 0.193 -.1927873 .9550193

socialnetw~g | .8746314 .5176022 1.69 0.091 -.1398504 1.889113

time_in_ma~t | -.0002652 .0001267 -2.09 0.036 -.0005135 -.0000169

size_mb | .0002922 .0001786 1.64 0.102 -.0000579 .0006423

_cons | 11.63279 .0881334 131.99 0.000 11.46005 11.80553

-------------+----------------------------------------------------------------

/lnalpha | -1.403798 .1367135 -1.671752 -1.135845

-------------+----------------------------------------------------------------

alpha | .2456621 .0335853 .1879176 .3211508

------------------------------------------------------------------------------

Likelihood-ratio test of alpha=0: chibar2(01) = 3.1e+06 Prob>=chibar2 = 0.000


. estat ic
-----------------------------------------------------------------------------

Model | Obs ll(null) ll(model) df AIC BIC

-------------+---------------------------------------------------------------

. | 99 -1227.78 -1205.237 8 2426.474 2447.235

-----------------------------------------------------------------------------

Note: N=Obs used in calculating BIC; see [R] BIC note


По результатам модель дает похожие результаты с лог-линейной моделью, значимы соответствующие коэффициенты и знаки у оценок одинаковы. Поэтому для того, чтобы решить, какая модель лучше, сравним их информационные критерии.

Поскольку информационные критерии у OLS модели ниже, то предпочтение стоит отдать именно ей.



Таблица Информационные критерии для OLS

. estat ic


-----------------------------------------------------------------------------

Model | Obs ll(null) ll(model) df AIC BIC

-------------+---------------------------------------------------------------

. | 99 -83.82893 -64.36837 8 144.7367 165.4977

-----------------------------------------------------------------------------


Каталог: data -> 2013
2013 -> Федеральное государственное автономное образовательное
2013 -> «Визуальный образ персонажей массового кинематогрфа в историческом контексте»
2013 -> 2 раздел анализ предметной области 5
2013 -> Магистерская диссертация
2013 -> Влияние вовлеченности на готовность платить за коллекционные товары
2013 -> Выражение гендерных характеристик в англоязычном "глянцевом" дискурсе
2013 -> Продакт Плейсмент и перспективы его развития в сети Интернет
2013 -> 1Лекции первого полугодия
2013 -> «Правовое рассмотрение компьютерного мошенничества», Ницца, 22 октября 1992 года, грамота «весьма достойно»


Поделитесь с Вашими друзьями:
1   ...   5   6   7   8   9   10   11   12   13


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал