Каждый день мы говорим о данных — сессии, визиты, конверсия, страницы, посещения ит.д. Но иногда мы неправильно понимаем, как все эти метрики соотносятся друг с другом и откуда они берутся. Давайте разберёмся, как упорядочены данные в инструментах веб-аналитики.
Все данные, собранные системами веб-аналитики, можно представить в виде пирамиды из трёх основных блоков — пользователи, визиты и просмотры. Абсолютно не имеет значения, откуда эти данные получены — с веб-сайта, мобильного приложения или из торгового терминала.
Иногда мы используем понятие «посетитель» вместо понятия «пользователь» и «посещение» вместо «сессии» — это всё синонимы. Развитие мобильных устройств и цифрового телевидения побудило нас ввести новые понятия в наш словарный запас.
Важно разобраться с каждым блоком пирамиды и тем, как они взаимодействует с остальной структурой, чтобы сформировать комплексное представление о наших текущих и потенциальных покупателях, а в конечном счёте все эти данные нужны для оценки эффективности управленческих решений и поиска новых возможностей развития бизнеса.
Давайте начнём с основания пирамиды — хитов, а затем постепенно рассмотрим содержание понятий «сессия» и «пользователь».
Хит — это наиболее точный фрагмент данных в веб-аналитике. По своему содержанию хит — это запрос небольшого графический файл с сервера веб-аналитики. Вместе с каждым таким запросом передаются данные о действиях пользователя на веб-сайте или в мобильном приложении.
Существует несколько разновидностей хитов в зависимости от используемой Вами системы веб-аналитики. Вот некоторые из наиболее распространенных хитов в Google Analytics:
Хит «просмотр страницы» используется для веб-сайта, а «просмотры экрана» — для мобильного приложения. Как правило, эти хиты автоматически генерируются и позволяют измерять количество просмотров пользователями определённых фрагментов контента. Просмотры страниц — одна из основных метрик в веб-аналитике. Она используется для расчета многих других показателей, таких как число просмотров страниц за одно посещение и среднее время, проведённое на странице.
События используются для измерения частоты совершения пользователями каких-либо действий с контентом. В отличие от количества просмотренных страниц, которые определяются автоматически, события необходимо задавать вручную. Вам, как правило, нужно самостоятельно определить действия пользователя, которые система веб-аналитики будет интерпретировать как событие. Такими действиями могут быть нажатие кнопки, переход по ссылке, просмотр экрана и т.д. Главное — чтобы пользователь взаимодействовал с контентом страницы или экрана, а не просто посетил страницу.
Когда пользователь совершает покупку, на сервер веб-аналитики может отправляться информация о транзакции, в том числе информация о продукте (артикул, цвет, складской номер и др.), а также информация о доставке, налоговых платежах ит.д. Вы должны вручную настроить систему отслеживания электронной торговли для получения необходимых данных.
Данный хит происходит каждый раз, когда пользователь нажимает на кнопки retweet, +1 или Like. Если вы хотите знать, когда люди нажимают на кнопки социальных сетей, а затем использовать эту информацию, то необходимо вручную настроить данный вид треккинга.
Пользовательские тайминги позволяют измерить время между различными действиями пользователя на сайте. Например, вы можете измерить время между моментом, когда страница загрузится, и когда пользователь нажмёт на определённую кнопку. Пользовательские тайминги могут быть реализованы с помощью установки дополнительного кода на сайт.
Все типы хитов отправляются в Google Analytics через треккинг-код. Структура и вид кода зависят от тех данных, которые вы отслеживаете. Если вы отслеживаете веб-сайт, то используется код на JavaScript, который называется analytics.js, который генерирует и отправляет хиты на сервер веб-аналитики. Если вы отслеживаете мобильные приложения, тогда хиты генерируются SDK (набором средств разработки либо под Android, либо под iOS). Если вы отслеживаете сенсорные торговые терминалы, тогда вам самим нужно генерировать хиты с помощью специального протокола измерений (measurement protocol).
Независимо от типа хита, он должен соответствовать определённым правилам: запрашивать невидимое изображение и передавать данные параметра через строку запроса.
http://www.google-analytics.com/collect?v=1&_v=j16&a=164718749&t=pageview&_s=1&dl=http%3A%2F%2Fcutroni.com%2F&ul=en-us&de=UTF-8&dt=Analytics%20Talk%20-%20Digital%20Analytics%20for%20Business&sd=24-bit&sr=1920x1080&vp=1308x417&je=1&fl=12.0%20r0&_utma=32856364.1751219558.1391525474.1391525475.1391525475.1&_utmz=32856364.1391525475.1.1.utmcsr%3D(direct)%7Cutmccn%3D(direct)%7Cutmcmd%3D(none)&_utmht=1391525534970&_u=cACC~&cid=1751219558.1391525474&tid=UA-91817-11&z=378275262
Для тех, кто хочет лучше понять, что здесь происходит: данные отправляются через запрос типа GET или POST. Это необходимо знать, потому что количество передаваемых данных по каждому протоколу ограничено: GET-запрос может передавать 2048 символов данных. POST-запрос теоретически может быть любой длины, но при отправке данных в Google Analytics количество символов ограничено примерно 8000 знаков.
Немного о мобильных телефонах...
Наборы средств разработки под мобильные платформы отправляют данные не в реальном времени, а могут хранить их в памяти устройства и отправлять отдельными пакетами. Эта функция называется диспетчеризацией, и она используется по нескольким причинам. Во-первых, мобильные устройства не всегда подключены к интернету, поэтому аналитика должна хранить хиты до тех пор, пока смартфон снова не подключится к Всемирной паутине и только после этого посылает хиты на сервер аналитики. Во-вторых, отправка хитов пакетами данных снижает энергопотребление. Не волнуйтесь, диспетчеризация не влияет на формирование информации о сессиях, о которых мы поговорим прямо сейчас.
Сессии — это наборы данных хитов от одного пользователя, сгруппированные вместе. По умолчанию большинство аналитических систем, включая Google Analytics, будут группировать хиты вместе на основании активности пользователя. Когда инструменты веб-аналитики определяют, что пользователь больше не совершает действий на сайте, его сессия будет прервана; когда пользователь снова начнёт что-то делать — начнётся новая сессия.
Большинство систем веб-аналитики используют
Google Analytics и большинство других инструментов веб-аналитики используют период между первым и последним хитом для того, чтобы рассчитать время, проведённое посетителями на сайте. Период между хитами также используется для расчёта других метрик, таких как время, проведённое на странице.
Большинство инструментов позволят вам самим установить время тайм-аута для лучшего соответствия целям вашего сайта. Например, если у вас на сайте большое количество видео, особенно длительностью более 30 минут, то вы можете изменить тайм-аут.
Почему?
Если пользователь смотрит видео дольше 60 минут (под просмотром я понимаю то, что он не совершает других действий на сайте), его сессия будет прервана через 30 минут после совершения последнего хита. Для того чтобы избежать этого, вам нужно увеличить тайм-аут.
Или лучше вообще отправлять дополнительные хиты во время просмотра пользователем видео. Подумайте об этом — больше хитов даёт больше информации о пользователе и позволяет лучше рассчитывать продолжительность сессии. Поверьте, вам стоит выделить 12 минут на чтение статьи how Google Analytics performs time calculations.
Теперь, когда мы знаем, что хиты группируются в сессии, давайте посмотрим, как сессии распределяются по пользователям.
Далее показано, как определяются пользователи на наиболее распространённых цифровых платформах.
Для подсчёта количества пользователей сайта почти все инструменты веб-аналитики используют cookies. Cookies — небольшой фрагмент текста. Они содержат анонимный идентификатор. Каждый хит, который отправляется с сайта на сервер аналитики, содержит информацию о cookies.
Теперь давайте поговорим о cookies
Google Analytics использует первую часть cookies, которая содержит название домена, создавшего её. Только этот домен может обращаться к первой части cookies. Таким образом, cookies, которая была поставлена пользователю на сайте cutroni.com, может быть использована только этим сайтом.
В Universal Analytics cookie называются _ga, а в предыдущей версии Google Analytics cookie назывались __utma.
В пользу использования первой части cookie говорит тот факт, что любой браузер может её устанавливать. Это очень надёжная технология.
Первая часть cookies позволяет с большой степенью вероятности определять, с какого сайта поступают данные о действиях пользователя. Однако когда пользователь покидает ваш первый сайт и переходит на ваш другой сайт, второй сайт не будет передавать данные о себе на первый сайт. В большинстве случаев, если правильно не настроить систему аналитики, сайт автоматически установит новые cookie при посещении пользователем другого сайта.
Теперь у вас есть пользователь с двумя cookies. Это может привести к двойному учёту пользователей. К тому же, если мы хотим собрать действительно важные данные, такие как доход на одного абонента, этого будет сложно добиться, потому что мы не будем знать точного число посетителей наших сайтов.
С другой стороны, существуют сторонние cookie, которые могут быть получены другими доменами. Некоторые системы аналитики позволят вам использовать эту возможность.
Значимость таких cookie заключается в том, что инструменты аналитики смогут использовать их для отслеживания перемещений пользователей с одного домена на другой.
Однако сторонние cookies не могут быть созданы большинством браузеров, что приводит к невозможности получить корректные данные.
Google Analytics не использует сторонние cookie. Вы можете прочитать об использовании cookies в Google Analytics в руководстве разработчика developer documentation.
Так как же решить эту проблему? Как правильно определять пользователя, если ваш сайт размещён на нескольких доменах? В Google Analytics мы обычно используем функцию, которая называется Cross Domain Tracking. В данном посте я не буду на этом подробно останавливаться, но вы можете почитать об этом по следующей ссылке support documentation.
Теперь давайте перейдём к мобильным платформам
Мобильный трекинг похож на трекинг веб-сайтов. Есть анонимный идентификатор, устанавливаемый на устройство. Идентификатор генерируется каждый раз, когда на устройство устанавливается приложение. Если пользователь удалит приложение, то и идентификатор тоже будет удалён. Но это правило не распространяется на обновление приложения: идентификатор при этом меняться не будет.
Самое большое различие между мобильными устройствами и веб-сайтами заключается в том, что на мобильных девайсах идентификаторы не хранятся в cookie, а вместо этого используется память мобильного устройства. Принцип действия таких идентификаторов мало чем отличается от cookie: с каждым хитом мобильные устройства отправляют идентификатор пользователя на сервер аналитики, а он в свою очередь использует их для расчёта таких метрик, как уникальный пользователь.
С измерением данных приложений связана одна сложность. Многие приложение являются не просто приложениями, а гибридами приложения и сайта, т.е. используют браузер во фрейме. Это часто мешает корректному сбору данных, приводит к дублированию информации.
В этом случае мы имеем две технологии с двумя разными идентификаторами: приложение передаёт данные о пользователе на основе своего ID, а веб-сайт использует cookie, когда загружается страница в браузере.
Существует несколько путей решения этой проблемы, но это достаточно сложная тема, которой можно посвятить отдельный блог.
Так, теперь мы знаем о мобильных пользователях и пользователях веб-сайта. А что же с сенсорными торговыми терминалами?
В современном мире пользователь может взаимодействовать с цифровым контентом на различных устройствах (компьютер, мобильный телефон, терминал, ТВ-приставки ит.д.). И по этой причине многие данные об одном и том же человеке дублируются и мешают корректному измерению числа пользователей.
Одной из особенностей Universal Analytics является возможность отслеживать пользователей, использующих разные девайсы, в т.ч. сенсорные торговые терминалы. Это стало возможным благодаря использованию технологии, которая получила название протокол измерений (measurement protocol).
Как это работает на практике?
Протокол измерений также собирает хиты. Это те же хиты, которые были описаны выше. Разница лишь в том, что необходимо вручную задать их структуру. Таким образом, если вы хотите реализовать аналитику на торговом терминале, то необходимо будет написать гораздо больше кода, чтобы создать хиты, которые впоследствии будут отправляться в Google Analytics.
Но что происходит с идентификацией пользователей, когда используется протокол измерений?
Когда вы создаёте хиты, вы должны вставить в него идентификатор пользователя. Затем Google Analytics будет использовать этот идентификатор как уникальный номер, когда начнёт обрабатывать данные.
В отличие от веб-сайтов и мобильных приложений, в терминалах нет cookie или базы данных для хранения идентификатора. Таким образом, ID не сохраняется ни в хитах, ни в сессиях. Вы должны вручную вставить идентификатор в каждый хит в каждой сессии. Именно ваш код должен обеспечивать генерацию и хранение идентификатора.
На этом можно закончить. Получился достаточно хороший обзор данных цифровой аналитики.
Оригинал: http://cutroni.com/blog/2014/02/05/understanding-digital-analytics-data/
Проведите конкурс среди участников CMS Magazine
Узнайте цены и сроки уже завтра. Это бесплатно и займет ≈5 минут.