Анализируй то: о профессии data analyst

Мы начинаем серию постов, посвященных анализу данных. Дело в том, что вместе с IBS мы запустили совместный проект по переводу на русский язык специализации образовательного онлайн-ресурса Coursera «Наука о данных» (Data Science). Это поможет многим разработчикам и аналитикам в России получить свежую и полезную информацию в этой области, а волонтеры-переводчики расширят свой словарный запас в сфере IT.

Художник Джер Торп отобразил, как журнал Popular Science вводил в свои материалы различные технические и культурные термины

Художник Джер Торп отобразил, как журнал Popular Science вводил в свои материалы различные технические и культурные термины

За последнее десятилетие в мире появилось множество должностей, названия которых до сих пор остаются загадкой. Сейчас никого не удивишь «менеджерами», «ресечерами», «эйчаровцами» или «айтишниками». Но есть и гораздо более таинственные профессии. Об одной из них мы расскажем сегодня.

Кто такой аналитик данных
Наука о данных (Data Science) — раздел информатики, который изучает проблемы анализа и обработки данных в цифровой сфере. Ее практическая цель заключается, прежде всего, в поиске и обнаружении закономерностей в данных и извлечении необходимой информации из них в обобщенной форме. Проще говоря, наука о данных представляет собой набор средств, инструментов и подходов, которые помогают работать с теми массивами информации, которые одному человеку проанализировать не под силу. Представьте: социальную сеть Facebook ежедневно посещают более девятисот миллионов человек. Все эти данные нуждаются в анализе для эффективного ведения бизнеса.

Стокгольмская общественная библиотека — впечатляющая база данных: в ней хранится более 700 тысяч изданий. Фото: Саманта Маркс.

Стокгольмская общественная библиотека — впечатляющая база данных: в ней хранится более 700 тысяч изданий. Фото: Саманта Маркс.

Впечатляющий пример, как можно использовать «большие данные» с пользой. В 2009 году благодаря анализу более 3 миллиардов поисковых запросов с помощью одной из разработок Google удалось предотвратить эпидемию опасной формы гриппа H1N1. Система учитывала частоту запросов и географическое положение пользователей, таким образом «вычислив», какие именно запросы делает человек, зараженный вирусом. Так удалось установить направление распространения гриппа.

Супермаркеты типа Walmart учитывают поисковые запросы пользователей на своем сайте и другие данные, чтобы предлагать покупателям соответствующие товары. Разработчики видеоигр анализируют множество показателей, которые предоставляют им пользователи: начало и окончание игрового процесса, очки, поведение игроков — ежедневно более 500 Гб структурированных данных и 4 Тб журнала событий. Полицейские в США используют большие данные, чтобы ловить преступников и даже предугадывать, когда ожидаются всплески криминальной активности.

Потребители технологии больших данных — это в первую очередь компании, накапливающие много информации о клиентах. На основании анализа этих данных можно принять то или иное решение, влияющее на эффективность бизнеса. Помогают это делать аналитики данных (data analysts): они обрабатывают и анализируют данные для получения структурированных и воспринимаемых человеком результатов.

Распределение материи в космическом пространстве, подготовленное NASA с помощью данных от Hubble и наземных телескопов

Распределение материи в космическом пространстве, подготовленное NASA с помощью данных от Hubble и наземных телескопов

Как стать data analyst и что для этого нужно
Несколько лет назад в data analysts шли аналитики-математики, которые умели анализировать данные с помощью статистического программного обеспечения. Сегодня простого знания аналитики и математики недостаточно, специалист должен хорошо разбираться в информационных технологиях и следить за последними достижениями в области «больших данных». На самом деле, сколько статей по Data Science, столько и требований, а объединяет их одно — техническая специальность.

В статье «Информационные платформы как центры обработки данных» (Information Platforms as Dataspaces) один из основателей компании-разработчика связующего программного обеспечения Cloudera Джеффри Хаммербахер так описывает работу обычного участника группы Data Science:

«В любой день член группы может строить многоступенчатый пайплайн на Python, разрабатывать способы проверки статистических гипотез, выполнять регрессионный анализ примеров данных с помощью языка программирования R, разрабатывать и внедрять алгоритм для продукта или сервиса, требующего переработки большого количества данных, в фреймворке Hadoop или рассказывать о результатах нашего анализа другим членам организации».

Пусть меня научат
Возможно, те из вас, для кого информация выше не стала новостью, уже знают: не так давно на Coursera появилась специальность «Наука о данных» (Data Science), которая включает в себя серию из девяти последовательных курсов, раскрывающих все тонкости этого направления. На лекциях преподаватели университета Джона Хопкинса познакомят с самыми разными аспектами этой области знаний — от правильно поставленных вопросов до публикации выводов.

Приглашаем всех желающих присоединиться к переводу этих курсов на нашем сайте.

data_science_coursera_browser

Метки: , , , ,