Новости, мнения, блоги
Горизонтальная Россия

Эксперт Комитета гражданских инициатив Сергей Устинов: Работа с открытыми данными выводит журналистские расследования на новый уровень

Расшифровка лекции с сыктывкарского баркемпа о том, как один человек может вывести чиновников на чистую воду

На сыктывкарском баркемпе 30 июня эксперт Комитета гражданских инициатив Сергей Устинов рассказал, как можно анализировать открытые данные без больших ресурсов и на их основании делать качественные журналистские материалы. Интернет-журнал «7x7» публикует расшифровку его лекции.

 

Какие существуют виды данных

BIg Data, если говорить простым языком, — это просто маркетинговый термин. Большие данные от маленьких особо ничем не отличаются, но есть такое негласное разделение: если эти данные вы не можете обработать своим компьютером, их называют большими. Есть еще открытые данные — это если у государства, бизнеса или НКО есть какие-то данные, которые они создают и потом открывают.

Например, у нас в стране открыты все госконтракты или все ДТП, которые происходили за последние четыре года. У нас есть социальная сеть «ВКонтакте», которая тоже раскрывает данные о своих пользователях для сторонних разработчиков и для исследователей. То есть это данные, которые можно обрабатывать, и они при этом машиночитаемы. Это не просто какая-то картинка или какой-то pdf, который невозможно обработать быстро. Это в основном какие-то файлы, типа «экселя», которые можно обрабатывать компьютером.

Существуют также государственные открытые данные и ваши данные. Вы на самом деле тоже генерируете большое количество данных: свои треки поездок на велосипеде или свои статусы-посты в соцсетях. Это все можно назвать вашими данными.

 

Что можно делать с данными

— В чем вообще ценность этих данных? А они позволяют очень многое сделать, в отличие от обычных отчетов. Возьмем какого-нибудь чиновника, который рассказывает красивые цифры про рост средней зарплаты или уменьшение количества ДТП. Мы же, имея данные, можем это все проверять: реально ли это случилось, в чем на самом деле состоит суть этого явления. Нам говорят, что повышение пенсионного возраста положительно скажется на экономике. Но если мы имеем какие-то данные о том, как это было в других странах, или можем обработать информацию статистически, то можем сказать, что не все так просто. У нас есть возможность независимо от государства проводить какую-то аналитику и отвечать на эти вопросы без его участия.

 

О чем расскажут отчеты ГИБДД

— Недавно я читал в Махачкале лекцию и проанализировал данные о ДТП на Кавказе. Если мы возьмем Грозный и Назрань, то кажется, что это самые безопасные города, потому что у них самое маленькое количество ДТП на 100 тысяч человек. Если мы послушаем их чиновников, то, скорее всего, по итогам прошлого года они начнут рассказывать, как у них круто. У них самый низкий показатель ДТП в регионе. А если мы начнем разбираться (и у нас есть исходные данные по ДТП), то можем посмотреть, есть ли другие показатели, которые могут более адекватно оценить качество городской среды.

И мы смотрим на погибших и видим, что Назрань по этому показателю становится худшим городом. Картина полностью переворачивается. Если мы пойдем дальше и посчитаем количество погибших на 100 ДТП, то у нас Грозный и Назрань становятся самыми худшими городами. То есть речь о том, как разными показателями можно манипулировать, но если общественность умеет работать с данными, ее становится сложнее обмануть. В Назрани получается так, что погибает 57 человек на 100 ДТП. Каждый второй — насмерть.

У меня есть проект «ДТП-бот», который сообщает каждый день о смертности на дорогах. На сайте ГИБДД выкладывалась каждый день сводка, которую никто нарочно не читает. Но если эту информацию вытащить и оформить в удобный формат, например, в ленту Twitter, эти цифры начинают будоражить.

Был написан простой скрипт, который вытаскивал цифру из сводки, добавлял дизайн и выкладывал в ленту соцсети. Проект стал дико популярен, но сейчас не работает, так как ГИБДД на время Чемпионата мира запретили выкладывать всякие сводки.

 

Twitter ответит за чиновников

— В декабре прошлого года многие стали писать в соцсетях о том, что в Москве начало вонять каким-то то ли мусором, то ли сероводородом. Чиновники стали отвечать, что будут расследовать это дело. А нам пришла идея: как можно узнать, откуда все пошло, без чиновников? Решили вытащить все твиты за неделю до происшествия и посмотреть, где упоминается какая-то вонь. Так мы поняли, что само облако вони пошло со свалок и только потом ушло в центр. В итоге чиновники потом опубликовали похожий отчет, что запах был со свалок востока Москвы. Это пример того, как можно не ждать официальных ответов, а за пару часов найти нужную информацию.

 

Узнать скрытое

— Может быть, вы слышали, что в прошлом году в Челябинске был выброс каких-то загрязнений, который обнаружили европейцы спустя месяц. Наши чиновники опять молчали, а потом на сайте гозакупок появился контракт, который описывал как раз очистку определенного полигона от загрязнений. Это пример того, как через неочевидные данные можно находить ответы.

Та же информация по ДТП, ну что о ней, казалось бы, можно сказать? Ну, можно вытащить опасные перекрестки или узнать основные причины.

Есть в этих данных интересный показатель: наличие полиса ОСАГО у участников ДТП. Будем сравнивать по нему регионы и заметим, что где-то люди не могут позволить себе покупать полисы, и каждый год количество таких увеличивается. В Москве каждый 20-й автомобилист ездит без полиса, а на Кавказе — каждый 5-й или каждый 3-й.

 

Анализ данных и право

— Слышали ли вы об исследовании размеров веса изъятой марихуаны? Ребята из Санкт-Петербургского института проблем правоприменения провели аналитику по всем судебным решениям, касающимся найденных у людей наркотиков. Получилось, что все носят с собой определенный вес наркотиков, чтобы им дали уголовную статью.

Выходит, сотрудники полиции манипулируют весом, чтобы получался такой всплеск преступлений определенной направленности. Понятно, что такого полицейского очень сложно поймать за руку. Но если у вас есть данные, то это новый инструмент, позволяющий обнаружить подобные штуки.

Сергей Шпилькин, к примеру, занимается тем, что анализирует результаты выборов с детализацией до каждой избирательной комиссии. Существует масса моделей, которые позволяют посчитать, насколько данные фальсифицированы. И на его графиках отмечены все аномальные голоса, которые не могут быть статистически подтверждены. По результатам 2016 года у «Единой России» процентов 30 голосов были фальсифицированы.

Сейчас я приводил частные примеры, как люди в одиночку или небольшой группой работают с данными. Что касается медиа, то это называется data-журналистика — тренд, который набирает большую популярность в России. Многие федеральные медиа пытаются в эту сферу зайти и стараться делать расследования, которые выводят журналистику на качественно новый уровень.

 

Делать данные доступнее

— Существует большой пласт людей, которые эти данные создают или делают их доступнее. На сайте ГИБДД есть карта Республики Коми по ДТП, которая неудобна для обычного пользователя. А мы сейчас с московскими ребятами делаем сервис, где на каждое можно кликнуть и узнать, сколько погибло, какие марки машин были, в какое время произошло столкновение, были ли водители пьяны, был ли у них полис ОСАГО и т. д. Мы имеем государственные данные по ДТП и понимаем, что с их сервисами тяжело работать. Поэтому создаются такие вспомогательные сервисы для журналистов, активистов и урбанистов.

Еще один пример — с Комитетом гражданских инициатив и Инфокультурой мы создавали проект по некоммерческим организациям. Существует масса организаций, которые непонятно на что получают гранты. Этот сервис упрощает жизнь журналистам в расследовании по НКО или экспертам, чтобы понимать, кто получает больше грантов и в чьих интересах такая деятельность вообще ведется.

Возьмем ЦИК — он выкладывает данные о результатах по каждой комиссии с детализацией. Мы создали сервис, который эти данные выгружал бы, агрегировал и автоматически генерировал карту голосов. Мы делаем сервисы, на которых не нужно будет уметь программировать, а можно просто зайти и сгенерировать инфографику себе на сайт или найти исходные данные в удобном формате. Все это можно получить за две секунды, разместить на своем сайте и поделиться с другими.

Все чиновники должны выкладывать свои декларации, но эти данные тяжело обрабатывать. Ребята из «Трансперенси Интернешнл» создали «Декларатор», который все агрегирует, заносит в машинописный читаемый вид и позволяет делать всякие классные графики.

С этими же ребятами мы делали другой проект. У государства есть открытые данные по контрактам: где ремонтируют дороги, кто их ремонтирует. Наш проект агрегирует эти данные и пытается вовлечь в это людей. Мы можем рассказать через эти данные не о чем-то общем, а показать человеку, что происходит в его районе, в детском саду, куда ходит его ребенок.

Может, вы также слышали о международном расследовании, когда юридические компании слили данные из офшоров. Плюс этого в том, что журналисты, которые получили доступ к этим данным, не стали самостоятельно копаться во всей этой информации из кучи терабайтов, а разделили это между 50 редакциями по всему миру. После того, как материал был выпущен, исходные данные стали открыты вообще для всех. Такое вовлечение заметно увеличивает качество расследований.

 

Кто создает данные

— Создавать данные могут позволить себе только какие-то крупные НКО, государство или бизнес. Например, это «Голос» с его картой нарушений на выборах. Без них эта информация была бы просто недоступной. Практически все медиа, которые пишут статьи на эту тему, берут данные с «Карты нарушений».

В Нью-Йорке, например, есть некоммерческая организация, которая изучила все деревья в городе, провела, скажем, инвентаризацию зеленого корпуса города и выложила эти данные для людей. Зачем это нужно? Для того, чтобы, если вдруг начнут рубить что-то в парке или появится стройка, было сразу видно, какую роль играли эти деревья для экологии.

 

Больше всего данных — в соцсетях

— Но самый большой генератор открытых данных сегодня — это социальные сети. В них — невероятный объем информации, где кроются ответы на разные вопросы о происходящих в обществе явлениях. Помните этот скандал с Facebook, когда их данные утекли левой организации?

Сейчас все думают, как эту информацию лучше использовать. А для рекламы или того же политического таргетинга данные соцсетей стоят невероятную цену. Куча компаний сейчас заходит на этот рынок данных, им же пользуется государство, когда смотрит, что вы делаете во «ВКонтакте». Этот тренд будет продолжаться дальше.

Есть три этапа — создание данных, их обогащение и data-журналистика. По последнему существует много разных тренингов, проводятся хакатоны, в которых участвуют журналисты и активисты, чтобы вместе делать полезные сервисы через IT и помогать миру становиться лучше.

Последние новости

Комментарии (7)
или зарегистрируйтесь, чтобы оставить комментарий, как зарегистрированный пользователь.
Vova
01 июл 2018 15:41

Симпатичные молодые люди. Эх, был бы я помоложе....

Пенсионэр
01 июл 2018 22:21

Ты же всё время хотел казаться старше своих лет. И до сих пор хочешь.

Vova
01 июл 2018 23:41

Что поделаешь. Идеологическая борьба и алкоголь делают свое дело...

Пенсионэр
02 июл 2018 00:12

Я не говорил, что ты выглядишь старше своих лет, я сказал, что ты хочешь выглядеть старше, умнее, мудрее...

Vova
02 июл 2018 01:13

Вот чего понять не могу - тебе-то какая хрен разница? Мне лично на тебя наплевать, например :)

Вижу
01 июл 2018 22:41

Остались Vova и Терентьев....Что и должно было случится....остальные ушли.

Vova
02 июл 2018 01:14

Тереньтев тоже скоро уйдёт :)