Федеральное государственное автономное образовательное



страница7/13
Дата07.11.2016
Размер1.36 Mb.
Просмотров3055
Скачиваний0
1   2   3   4   5   6   7   8   9   10   ...   13

2.2.3. Проверка на выбросы


Для проверки данных на выбросы построим регрессию, которая будет включать большинство регрессоров (не берем curr рейтинг, поскольку он сильно коррелирует с общим рейтингом).

Вообще между категориями общего рейтинга тоже существует обоснованная сильная корреляция (поэтому можно предполагать, что в нашей модели будет мультиколлинеарность), но поскольку с экономической точки зрения нам важно оценить влияние рейтинга/оценок приложения, то пока эти переменные оставим совместно.

.quietly reg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local universal iphoneipodtouch gameloft disney time_in_market all5 all4 all3 all2 all1 size_mb number_lang books business education entertainment finance games healthandfitness lifestyle music photoandvideo productivity reference socialnetworking utilities

Проверим регрессию на выбросы. С помощью нескольких способов, которые можно реализовать в Stata. Поскольку мы имеем несовершенство информации, некоторые рейтинги пропущены, поэтому данные способы выявления выбросов отмечают именно эти наблюдения. Придется их удалить для дальнейшего полноценного анализа.

Таблица Проверка на выбросы (Россия)

. list id rstud downloads_this_month price_in_eur all5 all4 all3 all2 all1 size_mb if abs(rstud)> 2.2


+--------------------------------------------------------------------------------------+

| id rstud downlo~h price_~r all5 all4 all3 all2 all1 size_mb |

|--------------------------------------------------------------------------------------|

6. | ru6 3.096471 55800 .82 2650 468 139 43 136 3.8 |

15. | ru15 -4.728123 14300 .82 12188 1200 233 71 104 33.4 |

37. | ru40 3.463026 60000 1.63 2226 567 145 44 86 9.8 |

44. | ru49 2.983097 110600 4.18 12924 1255 463 265 689 1400 |

50. | ru55 3.31835 112000 .82 21535 1260 461 295 548 1200 |

|--------------------------------------------------------------------------------------|

61. | ru66 2.707003 59900 .82 8117 469 189 119 296 39.3 |

+--------------------------------------------------------------------------------------+
. list id cooksd dfits if dfits>2*sqrt(30/74) & (cooksd> 4/74)
+-----------------------------+

| id cooksd dfits |

|-----------------------------|

6. | ru6 .0943746 1.806972 |

24. | ru25 .0561746 1.352156 |

33. | ru35 .1817956 2.357861 |

37. | ru40 .0817566 1.706148 |

44. | ru49 .2757072 3.075587 |

|-----------------------------|

50. | ru55 .3950318 3.728638 |

87. | ru94 .3105452 . |

97. | ru104 35.33314 32.87135 |

+-----------------------------+

Удалим из регрессии те выбросы, которые выявили оба теста.



2.2.4. Регрессионный анализ

Базовая линейная модель


Для рассмотрения основных возможных взаимосвязей построим первоначальную линейную модель со всеми объясняющими переменными.

Таблица Линейная модель со всеми объясняющими переменными (Россия)

. reg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly iphoneipodtouch gameloft d

> isney time_in_market all5 all4 all3 all2 all1 books business education entertainment finance games healthandfitness lif

> estyle music photoandvideo productivity reference socialnetworking utilities size_mb number_lang

note: socialnetworking omitted because of collinearity


Source | SS df MS Number of obs = 105

-------------+------------------------------ F( 30, 74) = 4.55

Model | 25.5647674 30 .852158912 Prob > F = 0.0000

Residual | 13.852333 74 .18719369 R-squared = 0.6486

-------------+------------------------------ Adj R-squared = 0.5061

Total | 39.4171004 104 .379010581 Root MSE = .43266


------------------------------------------------------------------------------

lndownloads | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

apps_publi~d | -.0005032 .0006692 -0.75 0.454 -.0018365 .0008302

paid_in_app | .1564417 .1258895 1.24 0.218 -.0943985 .4072819

price_in_eur | .0186998 .0480454 0.39 0.698 -.0770327 .1144322

had_free_p~d | -.1938156 .129367 -1.50 0.138 -.451585 .0639538

is_local | -.1420443 .1768781 -0.80 0.425 -.4944817 .210393

iphoneonly | .7839484 .747565 1.05 0.298 -.7056073 2.273504

iphoneipod~h | -.1729389 .1329167 -1.30 0.197 -.4377813 .0919035

gameloft | -.5324262 .2970574 -1.79 0.077 -1.124326 .0594736

disney | .3078366 .2727199 1.13 0.263 -.2355697 .851243

time_in_ma~t | -.0004167 .0001743 -2.39 0.019 -.000764 -.0000693

all5 | .0000717 .0000326 2.20 0.031 6.86e-06 .0001366

all4 | .0000686 .0006263 0.11 0.913 -.0011793 .0013165

all3 | .0005906 .0026359 0.22 0.823 -.0046615 .0058428

all2 | -.0007563 .0047345 -0.16 0.874 -.01019 .0086774

all1 | .0002648 .0009419 0.28 0.779 -.001612 .0021415

books | -.891956 .5644681 -1.58 0.118 -2.016683 .2327712

business | -.3760276 .3658893 -1.03 0.307 -1.105078 .3530227

education | -.1262587 .3710057 -0.34 0.735 -.8655036 .6129862

entertainm~t | -.4322201 .340157 -1.27 0.208 -1.109998 .2455575

finance | -.3315601 .3520485 -0.94 0.349 -1.033032 .3699118

games | -.6527126 .2937548 -2.22 0.029 -1.238032 -.0673934

healthandf~s | 1.563592 .5209762 3.00 0.004 .5255248 2.60166

lifestyle | -.8583297 .5196405 -1.65 0.103 -1.893736 .1770766

music | -.2683263 .3311178 -0.81 0.420 -.928093 .3914403

photoandvi~o | -.2942276 .3796639 -0.77 0.441 -1.050724 .4622693

productivity | -.4521253 .3661323 -1.23 0.221 -1.18166 .2774093

reference | -.9479809 .6332243 -1.50 0.139 -2.209708 .3137459

socialnetw~g | (omitted)

utilities | -.3572987 .2989926 -1.20 0.236 -.9530544 .2384571

size_mb | .0006881 .0002667 2.58 0.012 .0001568 .0012195

number_lang | -.0100094 .0080508 -1.24 0.218 -.026051 .0060321

_cons | 10.08759 .3172948 31.79 0.000 9.45537 10.71982

------------------------------------------------------------------------------

Как мы видим, модель получилась значимой, но помимо этого, существует большое количество незначимых объясняющих переменных.



Рисунок Распределение остатков (Россия)

Проверим на нормальность распределения остатков. Тест Харки-Бера (prob=0.000002) показывает, что распределение не нормально. При проведении теста на эмпирическое распределение, только у одного теста не отвергнуть нулевую гипотезу о нормальности распределения на 1% уровне значимости. Но в общем, остатки распределены не нормально.



Таблица Эмпирическое распределение остатков

Empirical Distribution Test for RESID




Hypothesis: Normal







Sample: 1 112










Included observations: 105





































Method

Value  

Adj. Value

Probability


































Lilliefors (D)

0.100483

NA

0.0109




Cramer-von Mises (W2)

0.250589

0.251782

0.0012




Watson (U2)

0.247398

0.248576

0.0007




Anderson-Darling (A2)

1.480049

1.490922

0.0008

































Получаем 7 значимых переменных. Очищенная регрессия выглядит так:



Таблица Базовая очищенная линейная модель (Россия)

Dependent Variable: DOWNLOADS_THIS_MONTH




Method: Least Squares







Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6" AND

        ID<>"ru40"







Included observations: 101







White heteroskedasticity-consistent standard errors & covariance































Variable

Coefficient

Std. Error

t-Statistic

Prob.  































ALL5

2.161455

0.464436

4.653931

0.0000

APPS_PUBLISHED

-16.67051

10.18700

-1.636450

0.1052

CATEGORY3="Games"

-1410.664

1735.117

-0.813008

0.4183

CATEGORY3="Health and Fitness"

67400.13

1998.198

33.73046

0.0000

CATEGORY3="Social Networking"

74103.90

8136.211

9.107913

0.0000

SIZE_MB

8.169765

3.857275

2.118015

0.0369

TIME_IN_MARKET

-6.469221

2.981620

-2.169700

0.0326

PRICE_IN_EUR

310.0589

652.4888

0.475194

0.6358

C

14444.82

1939.946

7.445989

0.0000































R-squared

0.740908

    Mean dependent var

18379.21

Adjusted R-squared

0.718378

    S.D. dependent var

15619.51

S.E. of regression

8288.971

    Akaike info criterion

20.96813

Sum squared resid

6.32E+09

    Schwarz criterion

21.20116

Log likelihood

-1049.890

    Hannan-Quinn criter.

21.06246

F-statistic

32.88575

    Durbin-Watson stat

2.145486

Prob(F-statistic)

0.000000







































Поскольку большинство категорий мобильного приложения оказались незначимы в регрессии, преобразуем эти фиктивные переменные в вид: Games, Health and Fitness, Social Networking и Other, причем последнюю переменную возьмем как эталонную. Так же остальные не значимые переменные проверим на тесте на лишние переменные (уровень значимости F-статистики>0.05, следовательно, нулевая гипотеза верна – это лишние переменные, которые можно удалить из регрессии):



Таблица F – тест на лишние переменные в линейной модели (Россия)

Redundant Variables: ALL4 ALL3 ALL2 ALL1





































Value

df

Probability




F-statistic

 0.437145

(4, 77)

 0.7814




Likelihood ratio

 2.223026

 4

 0.6948





































Redundant Variables: HAD_FREE_PERIOD IS_LOCAL PAID_IN_APP

        NUMBER_LANG








































Value

df

Probability




F-statistic

 0.215699

(4, 81)

 0.9290




Likelihood ratio

 1.048953

 4

 0.9023


































В модели (Таблица Базовая очищенная линейная модель (Россия)) коэффициент, отображающий влияние на скачивание категории «Игры», и оценка коэффициенты цены получаются незначимыми. С точки зрения интерпретации они необходимы.

Таблица VIF(Россия)



Variance Inflation Factors




Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6" AND

        ID<>"ru40"




Included observations: 101































Coefficient

Uncentered

Centered

Variable

Variance

VIF

VIF

























ALL5

 0.094296

 2.107311

 1.451601

APPS_PUBLISHED

 94.15744

 2.124621

 1.614666

CATEGORY3="Games"

 3864664.

 3.178419

 1.416127

(CATEGORY3="Health and Fitness")

 72362919

 1.062741

 1.052219

(CATEGORY3="Social Networking")

 96644090

 1.419341

 1.405288

SIZE_MB

 9.966453

 1.910490

 1.571831

TIME_IN_MARKET

 8.394548

 2.562162

 1.226433

C

 2566015.

 3.806204

 NA

























В первую очередь, надо уточнить, что объясняющая переменная all5 отображает общее количество высших оценок (рейтинг), поставленных покупателями. В целях исследования были для стандарта выведены средний общий и текущий рейтинг, но поскольку выборка, участвующая в анализе, образована топом скачиваемых приложений, т.е. органично заметить, что у некоторых приложений средний рейтинг отличается на несколько сотых (общая величина в среднем превосходит 4,5), поэтому в регрессию она не включена. А переменная all5 показывает, как общее увеличение отличных отметок влияет на скачивания. Насчет одновременного влияния (возможно ли влияние самих загрузок на рейтинг) объяснение приведено в части 2 «Регрессия с инструментальными переменными».

Исходя из предварительного анализа, из большого количества различных категорий мобильных приложений для регрессии были созданы лишь 4 категории: Games (поскольку это более 50% выборки), Social Networking и Health&Fitness (было замечено сильное влияние на объем загрузок), а за эталон взяты все остальные категории под наименованием ‘Other’. Оказалось, что Social Networking и Health&Fitness имеют лишь по одному приложению в категории, WhatsApp Messenger и Smart Alarm Clock: sleep cycles and noise recording, соответственно.



  • WhatsApp Messenger — это межплатформенное приложение обмена сообщениями между мобильными устройствами, с помощью которого можно обмениваться сообщениями и при этом не платить за SMS. Приложение WhatsApp Messenger доступно для iPhone, BlackBerry, Android, Nokia S40, Nokia Symbian и Windows Phone, и все эти телефоны могут отправлять сообщения друг другу. Приложением используется тот же тарифный план для Интернета (3G или Wi-Fi), который вы используете для электронной почты и просмотра веб-страниц, и вам не нужно платить за обмен сообщениями и общение с друзьями. Помимо обмена сообщениями, пользователи приложения WhatsApp могут создавать группы и отправлять друг другу изображения, видеоклипы и звуковые мультимедийные сообщения.

  • Smart Alarm Clock: sleep cycles and noise recording – «Умный будильник», который может как усыпить, так и разбудить, но не только он может записать ваш сон, воспроизвести и множество других функций, которых нет у стандартных устройств.

По количеству скачиваний данные приложения достаточно долго держатся на лидирующем уровне, поэтому эти коэффициенты дают значимую оценку. В результате получается, что по сравнению со всеми остальными категориями для приложений WhatsApp Messenger и Smart Alarm Clock: sleep cycles and noise recording увеличение в объеме скачиваний составляет 67 и 74 тыс. раз.

Но старые приложения никому не нужны, рынок быстро растущий, развивающийся и успех бизнеса озадачивает все время поддерживать новизну и обновление устаревшего, поэтому оценка коэффициента при переменной, выражающей время нахождения на рынке в днях отрицательный. А цена на приложения возможно не значима из-за внутренних особенностей рынка: общие устоявшиеся цены (несколько категорий), большинство успешных приложений находятся в самой низкой категории цены, а так же возможен порог выше которого люди не будут заинтересованы покупать приложение, тем более в какой-то доли приобретение каждого малоизвестного приложения – риск, поэтому потребитель будет уменьшать свои издержки.


Поскольку в базовой регрессии объясняющая переменная, характеризующая цены на мобильные приложения, оказалась незначимая, на основе линейной модели проверим значимость каждой категории цены в отдельности, а именно преобразуем ряд цен в фиктивные переменные и включим в регрессию.

Таблица Базовая регрессия с включением каждой категории цены на мобильное приложение (Россия)



Dependent Variable: DOWNLOADS_THIS_MONTH




Method: Least Squares







Sample (adjusted): 1 106







Included observations: 99 after adjustments




White heteroskedasticity-consistent standard errors & covariance































Variable

Coefficient

Std. Error

t-Statistic

Prob.  































ALL3

-4.663348

68.85517

-0.067727

0.9462

ALL5

2.776300

1.045457

2.655585

0.0096

APPS_PUBLISHED

-10.01094

17.32878

-0.577706

0.5651

CATEGORY3="Games"

-4349.503

2950.248

-1.474284

0.1445

CATEGORY3="Health and Fitness"

64642.06

4775.391

13.53650

0.0000

CATEGORY3="Social Networking"

48024.16

24221.30

1.982724

0.0510

HAD_FREE_PERIOD

-765.3887

2650.830

-0.288735

0.7736

IS_LOCAL

1982.631

4393.817

0.451232

0.6531

SIZE_MB

11.73597

6.043269

1.941990

0.0558

TIME_IN_MARKET

-11.50809

3.054002

-3.768200

0.0003

PRICE_NEW(1)

-1206.680

684.2144

-1.763600

0.0818

PRICE_NEW(2)

-855.4401

463.6735

-1.844919

0.0689

PRICE_NEW(3)

-224.9476

864.2998

-0.260266

0.7954

PRICE_NEW(4)

-1210.233

479.1961

-2.525549

0.0136

PRICE_NEW(5)

-936.7710

446.0089

-2.100341

0.0390

PRICE_NEW(6)

809.1809

686.7490

1.178277

0.2423

PAID_IN_APP

2308.106

2138.602

1.079259

0.2838

NUMBER_LANG

-4.097890

192.7811

-0.021257

0.9831

ALL4

17.16875

33.94820

0.505734

0.6145

ALL2

-19.55105

141.9644

-0.137718

0.8908

ALL1

-0.408005

33.86443

-0.012048

0.9904

C

22071.92

4901.336

4.503245

0.0000































R-squared

0.774182

    Mean dependent var

21454.55

Adjusted R-squared

0.712595

    S.D. dependent var

21073.70

S.E. of regression

11297.65

    Akaike info criterion

21.69571

Sum squared resid

9.83E+09

    Schwarz criterion

22.27240

Log likelihood

-1051.937

    Hannan-Quinn criter.

21.92904

Снова для очищения регрессии от лишних переменных проведем F-тест на лишние переменные (probability F-статистики>0.05, следовательно, нулевая гипотеза не отклоняется – это статистически незначимые переменные, которые можно удалить из регрессии):



Таблица F – тест на лишние переменные в линейной модели c ценой как категориальной переменной (Россия)

Redundant Variables: APPS_PUBLISHED NUMBER_LANG PAID_IN_APP

        IS_LOCAL HAD_FREE_PERIOD





































Value

df

Probability




F-statistic

 0.268289

(5, 81)

 0.9292




Likelihood ratio

 1.626114

 5

 0.8981


































Redundant Variables: PRICE_NEW(3) PRICE_NEW(4) PRICE_NEW(5)

        PRICE_NEW(6)








































Value

df

Probability




F-statistic

 1.521987

(4, 86)

 0.2029




Likelihood ratio

 6.771281

 4

 0.1485


































Получаем такую очищенную регрессию, где

Таблица Очищенная регрессия с категориальной ценой (Россия)



Dependent Variable: DOWNLOADS_THIS_MONTH




Method: Least Squares







Sample (adjusted): 1 110







Included observations: 103 after adjustments




White heteroskedasticity-consistent standard errors & covariance































Variable

Coefficient

Std. Error

t-Statistic

Prob.  































ALL5

3.400473

0.547882

6.206578

0.0000

CATEGORY3="Games"

-6148.669

2311.314

-2.660248

0.0092

CATEGORY3="Health and Fitness"

64031.21

2199.837

29.10724

0.0000

CATEGORY3="Social Networking"

56419.16

8703.670

6.482226

0.0000

SIZE_MB

12.26519

5.361273

2.287738

0.0244

TIME_IN_MARKET

-12.14541

3.697275

-3.284963

0.0014

PRICE_NEW(1)

-1345.688

565.4826

-2.379716

0.0193

PRICE_NEW(2)

-886.3093

509.7727

-1.738636

0.0854

C

21304.90

3202.031

6.653557

0.0000































R-squared

0.734536

    Mean dependent var

21010.68

Adjusted R-squared

0.711943

    S.D. dependent var

20776.96

S.E. of regression

11151.18

    Akaike info criterion

21.55980

Sum squared resid

1.17E+10

    Schwarz criterion

21.79002

Log likelihood

-1101.330

    Hannan-Quinn criter.

21.65305

F-statistic

32.51212

    Durbin-Watson stat

1.857978

Prob(F-statistic)

0.000000







































Из предыдущей модели видно, что первая и вторая категория цены значима и имеет отрицательный знак, данный факт показывает, что при сравнении с другими категориями, наличие этих категорий уменьшает количество загрузок на 1345 и 886 соответственно. При этом большинство приложений состоят именно в первой категории цены, что достаточно странно. Возможно, существует какая-то ошибка. Проверим на мультиколлинеарность модель. Мультиколлинеарности не обнаружено, все коэффициенты VIF<2.



Таблица Variance Inflation Factors для модели с категориальной ценой (Россия)

Variance Inflation Factors




Sample: 1 112







Included observations: 103































Coefficient

Uncentered

Centered

Variable

Variance

VIF

VIF

























ALL5

 0.112319

 1.952306

 1.379172

CATEGORY3="Games"

 6444078.

 2.953887

 1.319212

(CATEGORY3="Health and Fitness")

 1.33E+08

 1.066072

 1.055722

(CATEGORY3="Social Networking")

 1.65E+08

 1.326529

 1.313650

SIZE_MB

 12.16745

 1.542618

 1.272910

TIME_IN_MARKET

 14.73940

 2.455353

 1.190710

PRICE_NEW(1)

 408106.5

 2.523818

 1.078200

PRICE_NEW(2)

 405385.5

 2.461350

 1.052210

C

 8294643.

 6.870575

 NA
























Важно отметить, что проблемы гетероскедастичности сразу решались в моделях с использованием скорректированных стандартных ошибок. А так же исходя из распределения зависимой величины, была построена аналогичная лог-линейная модель для сравнения показателей. По описательным способностям она слабее. Но с математической точки зрения использование ее оценок является обоснованным. Поэтому все дальнейшие сравнения будут происходить именно с этой моделью.



Таблица Лог-линейная модель

Dependent Variable: LOG(DOWNLOADS_THIS_MONTH)




Method: Least Squares







Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6" AND

        ID<>"ru40"







Included observations: 101







White heteroskedasticity-consistent standard errors & covariance































Variable

Coefficient

Std. Error

t-Statistic

Prob.  































ALL5

8.58E-05

1.64E-05

5.233942

0.0000

APPS_PUBLISHED

-0.000478

0.000485

-0.984582

0.3274

CATEGORY3="Games"

-0.057651

0.086928

-0.663197

0.5089

CATEGORY3="Health and Fitness"

1.933486

0.091797

21.06251

0.0000

CATEGORY3="Social Networking"

1.203614

0.297765

4.042156

0.0001

SIZE_MB

0.000289

0.000175

1.653017

0.1017

TIME_IN_MARKET

-0.000392

0.000128

-3.051742

0.0030

PRICE_IN_EUR

0.027314

0.035485

0.769730

0.4434

C

9.518194

0.094453

100.7713

0.0000































R-squared

0.509096

    Mean dependent var

9.635890

Adjusted R-squared

0.466409

    S.D. dependent var

0.533125

S.E. of regression

0.389434

    Akaike info criterion

1.036640

Sum squared resid

13.95260

    Schwarz criterion

1.269671

Log likelihood

-43.35033

    Hannan-Quinn criter.

1.130978

F-statistic

11.92618

    Durbin-Watson stat

1.885533

Prob(F-statistic)

0.000000







































При этом, нулевая гипотеза о нормальности остатков не может быть принятой.





Рисунок Остатки лог-линейной модели

В результате получается, что по сравнению со всеми остальными категориями для приложений WhatsApp Messenger и Smart Alarm Clock: sleep cycles and noise recording увеличение в объеме скачиваний составляет на 591,36% и 233,21%, соответственно. Так же как и в линейной модели, время нахождения на рынке отрицательно влияет на загрузки (с каждым днем относительная оценка загрузок будет падать на 0,04%. А цена на приложения возможно не значима из-за внутренних особенностей рынка: общие устоявшиеся цены (несколько категорий), большинство успешных приложений находятся в самой низкой категории цены, а так же возможен порог выше которого люди не будут заинтересованы покупать приложение, тем более в какой-то доли приобретение каждого малоизвестного приложения – риск, поэтому потребитель будет уменьшать свои издержки.




Каталог: data -> 2013
2013 -> Федеральное государственное автономное образовательное
2013 -> «Визуальный образ персонажей массового кинематогрфа в историческом контексте»
2013 -> 2 раздел анализ предметной области 5
2013 -> Магистерская диссертация
2013 -> Влияние вовлеченности на готовность платить за коллекционные товары
2013 -> Выражение гендерных характеристик в англоязычном "глянцевом" дискурсе
2013 -> Продакт Плейсмент и перспективы его развития в сети Интернет
2013 -> 1Лекции первого полугодия
2013 -> «Правовое рассмотрение компьютерного мошенничества», Ницца, 22 октября 1992 года, грамота «весьма достойно»


Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   10   ...   13


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал