Данный рейтинг представляет собой попытку построения универсального объективного индикатора качества/популярности баров без использования экспертных оценок и отзывов посетителей, основывающегося лишь на физических характеристиках заведения и генерируемых вокруг него многомерных данных из социальных сетей.
В (Айвазян, 2003)RePeC
указано, что в соотвествии с известным в теории управления порогом сложности человек в состоянии дать адекватную качественную оценку событию или явлению, если оно описывается не более чем 7-10 параметрами (частными критериями). В противном случае для его осмысления и обобщенных выводов необходимо использовать специальные методы уменьшения размерности (Метод главных компонентWiki).
Methodology
Поскольку исходные данные представлены как числовыми так и номинальными переменными, для снижения размерности используется Multivariate Analysis для Метода главных компонент.
Для расчета итоговых оценок используется метод построения интегральных характеристик без обученияWiki (метод модифицированной первой главной компоненты), предложенный в (Айвазян, 2003)RePeC.
Data
В модель включены 33 параметра.
Офлайн характеристики
Источник данных: анкета на сайте, телефонные опросы, непосредственное посещение.
Количественные
LifeTime - Период от открытия заведения до текущей даты (дни, на 12/06/2017)
Tap - Количество кранов
Seat - Количество мест
WC - Количество туалетов
Bartender - Численность барменов
TapRatio - Количество кранов/Количество мест
WCRatio - Количество туалетов/Количество мест
BartenderRatio - Численность барменов/Количество мест
FBhours - Рабочие часы в неделю (*данные со страниц facebook на 12/06/2017)
Качественные
Card - Оплата картой (0-Нет, 1-Есть)
Street - Места на улице (0-Нет, 1-Есть)
Liquor - Крепкий алкоголь (0-Нет, 1-Есть)
Waiter - Официанты (0-Нет, 1-Есть)
WiFi - WiFi (0-Нет, 1-Есть)
Cuisine - Кухня (0-Нет, 1-Есть)
Онлайн характеристики
Источник данных: соцсети. Актуальность: 12/06/2017.
Количественные
VK
VKmembers - Подписчики
VKsexF - Процент женщин
Facebook
FBfan_count - Подписчики
FBInter - Процент иностранцев
FBtaggedRatio - Среднее упоминаний группы в постах за неделю
FBPostRatio - Среднее постов в день (по последним 100 постам)
FBlikesRatio - Среднее лайк/пост (по последним 100 постам)
FBcommentsRatio - Среднее коммент/пост (по последним 100 постам)
FBsharedpostsRatio - Среднее репост/пост (по последним 100 постам)
Foursquare
FRSQcheckins - Чекины
FRSQusers - Юзеры
FRSQcheckinsActivity - Среднее чекин/юзер
FRSQcheckinsRatio - Среднее чекинов в день
Instagram
INSTFollowers - Подписчики
INSTRatio - Среднее постов в день (от даты открытия до 12/06/2017)
UNTAPPD
UNTAPTotal - Чекины
UNTAPUnique - Юзеры
UNTAPMonthly - Среднее чекинов в месяц
Данные получены с использованием Web APIWiki (VK, Facebook, Foursquare) и Web scrapingWiki (Instagram, UNTAPPD).
Все расчеты выполнены в R.
Analyse
Рейтинг рассчитан для 78 объектов.
Корректировка исходных данных
Bartender
Количество барменов для указавших интервал значений посчитано как среднее.
VKmembers
Количество подписчиков пересчитано без учета заблокированных/удаленных пользователей.
*Для баров, не имеющих страницу Вконтакте, VKmembers и VKsexF равны 0.
FBsharedpostsRatio
В значениях коэффициента репоста 2 аномальных значения.
Причина - периодические перепосты новостей страницы в тематические группы. Переменной FBsharedpostsRatio данных баров присвоено значение 0.
INSTFollowers
В значениях количества подписчиков Instagram 2 аномальных значения.
Переменной INSTFollowers данных баров присвоено медианное значение по выборке.
Model
Первые 2 компоненты для числовых переменных.
1-я главную компоненту для целей классификации можно считать значимой (объясняет 29.8% общей вариабельности признаков).
Параметры с большим значением cos2 (цветовая шкала на графике или длины векторов) вносят относительно бо́льший вклад в дисперсию интегральной характеристики.
Для рейтинга в качестве весовых коэффициентов используются факторные нагрузки cos2 1-й главной компоненты (квадраты координат по оси Dim1)*.
*Значения по оси Dim1 - коэффициенты корреляции исходных переменных с первой главной компонентой.
Первые 2 компоненты для номинальных переменных.
Параметры Street и Liquor в наибольшей степени растягивают группы индивидуальных наблюдений 0/1 вдоль 1-й главной компоненты, и их факторные нагрузки значимо отличны от 0 (треугольник и эллипс - среднее и 95%-й доверительный интервал для него).
Result
Нормированные значения весов (Weighted, %).
Интегральный индикатор рассчитывается как сумма произведений весовых коэффициентов на соответствующие приведенные к единой шкале [0,1] частные критерии. Формула унификации шкал для монотонно возрастающей зависимости
X' = (X-Xmin)/(Xmax-Xmin).
Значения итоговой оценки с высокой значимостью делятся на 3 группы.
Интервалам (-:2), [2:5), [5:+) можно присвоить соотвественно оценки ★★★, ★★★★, ★★★★★.
References
Sebastien Le, Julie Josse, Francois Husson (2008). FactoMineR: An R Package for Multivariate Analysis. Journal of Statistical Software, 25(1).PDF
Kolenikov, S., & Angeles, G. (2004). The use of discrete data in PCA: theory, simulations, and applications to socioeconomic indices. Chapel Hill: Carolina Population Center, University of North Carolina, 1-59.PDF
Айвазян, С. А. (2003). К методологии измерения синтетических категорий качества жизни населения. Журнал Экономика и математические методы (ЭММ), 39(2).PDF
Рейтинг обновляется и дополняется при поступлении новых данных.
Вопросы и комментарии по рейтингу: facebook.com/craftbeermap
Для добавления в рейтинг или уточнения данных для пересчета заполните форму.