Команда Теплицы социальных технологий подготовила конспект онлайн-курса по работе с данными для НКО. На курсе дата-журналист Андрей Дорожный рассказал об особенностях работы с данными для сотрудников некоммерческих проектов, поделился инструментами и показал на примере, как можно работать с внутренними данными, понятно и красиво их визуализировать.
Мы собрали все видео и материалы курса, чтобы вы научились работать с данными без навыков программирования и начали извлекать из этого пользу в своей работе.
Вебинар № 1: Что такое данные?
Данные – это зарегистрированная информация, которая представлена в любой доступной для человека форме, это необработанные факты и цифры, их можно обрабатывать вручную и автоматическими способами. Данные можно использовать как новый способ рассказывать истории. Они могут помочь по-новому осветить проблему, которой занимается некоммерческий проект.
С помощью данных вы сможете проанализировать свою аудиторию, это даст вам понимание, как привлечь новую и оставить активной уже существующую. С помощью данных в некоммерческой организации можно оптимизировать внутренние процессы, например, лучше работать с финансами и документооборотом.
Дата-грамотность – важный навык современного пользователя, потому что сейчас публикуется огромное количество данных и умение пользоваться ими может дать вам суперсилу. Данные – это новая нефть, но машины не ездят на нефти. Наша задача – научиться обрабатывать данные: собирать, анализировать и визуализировать.
Андрей Дорожный,
дата-журналист и эксперт по визуализации данных
Дополнительные материалы вебинара
Вебинар № 2: Сбор данных. Открытые данные
Источниками данных может стать государство, коммерческие и некоммерческие компании, также есть альтернативные источники, которые можно сформировать с помощью веб-скрейпинга и краудсорсинга данных.
Веб-скрейпинг – это технология, которая позволяет получать данные из веб-ресурсов.
Краудсорсинг данных – это привлечение большого количества людей для сбора и формирования данных на конкретную тему и для дальнейшей обработки.
Отдельно следует вынести такой вид данных, как «открытые данные» – те, что доступны для машиночитаемого использования и дальнейшей републикации без ограничений авторского права, патентов и других механизмов контроля. Открытые данные позволяют повысить качество предоставления электронных государственных услуг, сделать их более полезными для пользователя и увеличить гражданский контроль, они позволяют делать больше аналитики и создавать на основе этих данных полезные сервисы.
Если посмотреть на характеристики основных видов данных, то все они обладают некоторыми свойствами. Государственные и общественные данные самые доступные, а коммерческие доступны, как правило, только по специальным соглашениям. Что касается качества, то общественные и государственные данные имеют чаще всего невысокое качество, а коммерческие данные, напротив, обладают высоким качеством.
Андрей Дорожный,
дата-журналист и эксперт по визуализации данных
Дополнительные материалы вебинара
- Презентация вебинара
- Источники государственных данных: ЕМИСС, Росстат
- Общественные данные: Википедия и Викидата
- Шпаргалка: как запросить открытые данные у государства
- Телеграм-чат открытых данных России
- Международные базы данных: Всемирная Организация Здравоохранения, Организации Объединенных Наций, Population Reference Bureau, Данные UNICEF, Каталог общедоступных данных Google, Хаб данных, Данные DBPedia, Factual, Бесплатные ГИС-данные, Список открытых ресурсов с данными, Репозитории данных по темам, World Research Institute, Quora тема: «Где я могу найти большие массивы данных в открытом доступе?», Директория APIs, Infochimps, Оффшорные Утечки, Investigative Dashboard, Open Corporates, Natural Earth Data, Программа ООН по окружающей среде, Индекс восприятия коррупции, База данных по сделкам с землей, Gapminder, Глобальная Лаборатория Данных
- Dataset Search
- На все случаи данных
- Сборник источников данных в Trello
- Карты данных от Инфокультуры
- Сервисы для веб-скрейпинга: Table capture, Instant data scraper, Data Toolbar (Windows), Web Scraper (All OS)
Вебинар № 3: Очистка данных
Прежде чем начать работать с данными, их необходимо чистить, только после чистки с ними возможно работать: фильтровать и сортировать, обобщать и анализировать, визуализировать и в итоге принимать на их основе решения. В третьем вебинаре вас ждет практика по очистке данных на примере датасета, где вы сможете вместе с ведущим курса подготовить его для дальнейшей обработки.
Есть такое понятие, как tidy data – чистые и структурированные данные. Для чего нам вообще чистить данные? Мы можем анализировать только чистые данные, иначе наши выводы и проекты на их основе не будут отражать реальность и мы не сможем получить корректных результатов.
Андрей Дорожный,
дата-журналист и эксперт по визуализации данных
Чек-лист очистки данных
- Посмотрите датасет, проверьте вкладки, объем датасета.
- Переименуйте файл, вкладку (латинскими буквами).
- Очистите форматирование.
- Очистите шапку, сделайте в одну строку.
- Описания колонок сохраните в отдельную вкладку (латинские буквы).
- Поправьте форматы переменных (числа, текст).
- Заморозьте первую строку.
- Проверьте датасет на дубликаты.
- Если есть, удалите дубликаты.
- Разделите необходимые колонки.
- Проверьте все 10 пунктов.
Дополнительные материалы вебинара
- Презентация вебинара
- Датасет для работы на вебинаре
- Чек-лист очистки данных
Вебинар № 4: Базовые знания функций табличного редактора
Четвертый вебинар посвящен практике, вы научитесь анализу данных с помощью табличного редактора. Андрей Дорожный использует Google Таблицы, но все действия подходят и для Microsoft Excel, если на вашем личном или рабочем компьютере установлена лицензионная версия. С помощью данного вебинара вы научитесь сортировке и суммированию, расчету среднего значения и процентов, а также узнаете, как объединять датасеты и анализировать изменения показателей в них.
С помощью табличного редактора мы можем фильтровать и сортировать данные, упорядочить по показателям, применять к ним определенные расчеты, использовать макросы. Мы будем делать связку – задавать вопросы к данным и искать с их помощью ответы.
Андрей Дорожный,
дата-журналист и эксперт по визуализации данных
Материал для проработки вебинара
- Датасет для работы на вебинаре.
Вебинар № 5: Сводные таблицы. Визуализация данных в google spreadsheet
Пятый вебинар посвящен практике, вы научитесь создавать сводные таблицы с помощью Google Таблицы, задавая правильные вопросы датасету, а также вместе с экспертом создадите визуализацию «в один клик» в табличном редакторе.
Есть такое мнение, что с помощью табличных редакторов невозможно сделать красивую визуализацию. Люди ошибочно полагают, что это очень плохой инструмент, но на самом деле это не так. Табличные редакторы имеют много шаблонов, которые возможно применять для визуализации и которые будут выглядеть отлично.
Андрей Дорожный,
дата-журналист и эксперт по визуализации данных
Материал для проработки вебинара
- Датасет для работы на вебинаре.
Вебинар № 6: Визуализация данных
Визуализация позволяет нам сформулировать сообщение, которое мы хотим представить читателю, переводя язык цифр на визуальный язык. Это упрощает коммуникацию и делает проект более понятным и привлекательным.
Процесс работы над визуализацией выглядит так: определить проблему реального мира → выразить проблему в формате данных → выбрать визуальную форму → создание визуализации с помощью инструментов.
Вид графика Bar chart – самый лучший способ визуализировать разницу в показателях, а Pie chart поможет изобразить соотношение между показателями. Если вам нужно представить количественные показатели за определенный период, то для этого лучше всего использовать график Line chart.
Наличие графика не гарантирует, что ваша информация станет релевантной для адресата и натолкнет его на какие-то действия. Для того чтобы успешно донести свое сообщение, нам необходимо правильно его сформулировать – это одна из самых важных и сложных задач в визуализации.
Андрей Дорожный,
дата-журналист и эксперт по визуализации данных
Дополнительные материалы вебинара
- Презентация вебинара
- Инструменты для визуализации: Generic Tools, Infogram, Tableau, Flourish и уроки к нему, Datawrapper
Что почитать
Вебинар № 7: Основы картографии
Седьмой вебинар посвящен практике: Андрей Дорожный наглядно показал, как сделать карту из простого файла csv без программирования, превратить ее в интерактивную и поставить себе на сайт, а также как преобразовать текстовые адреса в координаты широты и долготы.
С помощью данных с геопривязкой и размещения этих данных на карту можно наилучшим образом показать распространенность того или иного явления. На самом деле есть быстрые и простые способы использования такого рода визуализации.
Андрей Дорожный,
дата-журналист и эксперт по визуализации данных
Дополнительные материалы вебинара
- Презентация вебинара
- Инструменты для создания карт: Геокодер, QGIS, Mapbox, Google Maps, Carto, Datawrapper, Tableau, Flourish
- Что почитать: Блог компании Урбика, Картография в Tableau, Блог компании Mapbox, Блог компании Carto, Картографические сервисы для исследования вашего района