Проводите исследования Visionary Web Research, используя Deep Web Data и Excel Web Queries

  • Peter Holmes
  • 0
  • 4735
  • 857
Реклама

Что бы вы сказали, если бы я сказал, что в вашем распоряжении есть инструменты для проведения новаторских, потрясающих исследований? Ну, вы делаете, и я покажу вам, как.

Правительства, академические учреждения и некоммерческие исследовательские организации публикуют таблицы, полные данных, в открытом доступе. Без использования этой информации ее истинное значение никогда не будет известно. К сожалению, мало кто обладает пониманием, навыками или инструментами для сбора данных и создания интересных взаимосвязей между, казалось бы, не связанной информацией.

Фон

Многие исследования, которые я проводил для своего блога, включают в себя поиск так называемой невидимой сети. 12 лучших поисковых систем для поиска в невидимой сети. 12 лучших поисковых систем для поиска в невидимой сети. Google или Bing не могут искать все , Чтобы исследовать невидимую сеть, вам нужно использовать эти специальные поисковые системы. , чтобы раскрыть данные, которые были опубликованы для общественности, но скрыты от поисковых систем 5 самых продвинутых поисковых систем в Интернете 5 самых продвинутых поисковых систем в Интернете внутри онлайновой базы данных. TorSearch стремится стать Google для Deep Web TorSearch стремится стать Google для Deep Web Tor - это скрытый сервис и часть Deep Web. TorSearch - это новая анонимная поисковая система, которую ее основатель Крис Макнотон хочет сделать “Google of Tor”. , и это изобилует ценными данными. Очень часто я сталкиваюсь с веб-страницами, просто переполненными одними из самых ценных данных по темам, которые охватывают весь спектр от данных переписи до эпидемиологических исследований редких заболеваний. У меня постоянно появляются новые идеи о том, как попытаться сопоставить эти разрозненные источники данных с помощью различных инструментов, и одним из наиболее ценных инструментов, которые я нашел, является веб-запрос в Microsoft Excel..

Нахождение интересных корреляций данных

Сегодня я собираюсь показать вам пример того, как вы можете использовать веб-запросы Excel для извлечения данных с разных веб-сайтов и сопоставления их друг с другом для поиска потенциальных корреляций между данными..

Способ начать такое упражнение - выдвинуть интересную гипотезу. Например, чтобы было интересно, я собираюсь случайным образом постулировать, что стремительный рост аутизма в Соединенных Штатах вызван прививками вакцины или растущим наличием электромагнитных полей у детей и вокруг них, таких как мобильные телефоны. Это сумасшедшая гипотеза, подобную которой вы найдете на большинстве сайтов, посвященных теории заговора, но это то, что делает это забавным. Итак, начнем?

Сначала откройте Excel, перейдите к пункту меню данных и найдите “Из сети” значок в ленте меню.

Это то, что вы будете использовать для импорта различных таблиц данных с сайта, который их опубликовал..

Импорт веб-данных в Excel

Итак, в старые времена вам приходилось пытаться скопировать данные из этой таблицы на веб-странице, вставить их в Excel, а затем заняться всеми безумными проблемами форматирования, которые связаны с этим. Полные хлопоты, и во многих случаях это просто не стоит головной боли. Что ж, с Excel Web Queries эти дни прошли. Конечно, прежде чем вы сможете импортировать данные, вам нужно будет прогуляться по Интернету, чтобы найти нужные вам данные в табличном формате. В моем случае я обнаружил веб-сайт, на котором была опубликована статистика Министерства образования США по числу учащихся государственных школ США, у которых был выявлен аутизм. Там была хорошая таблица с цифрами с 1994 года до 2006 года..

Так что вы просто нажмите на “Из сети”, вставьте URL веб-страницы в поле адреса запроса, а затем прокрутите страницу вниз, пока не увидите желтую стрелку рядом с таблицей с данными, которые вы хотите импортировать.

Нажмите на стрелку, чтобы она стала зеленой галочкой.

Наконец, скажите Excel, в какое поле вы хотите вставить данные таблицы в новую электронную таблицу..

Тогда - Вуаля! Данные автоматически попадают прямо в вашу электронную таблицу.


Таким образом, учитывая тенденцию распространения аутизма в государственных школах с 1996 по 2006 год, пришло время заняться поиском тенденций в области вакцинации и использования сотовых телефонов..

К счастью, я быстро обнаружил тенденции для абонентов сотовой связи в США с 1985 по 2012 годы. Прекрасные данные для этого конкретного исследования. Я снова использовал инструмент веб-запросов Excel для импорта этой таблицы..

Я импортировал эту таблицу в новый чистый лист. Затем я обнаружил тенденции вакцинации для процента школьников, вакцинированных от различных заболеваний. Я импортировал эту таблицу с помощью инструмента веб-запросов на третий лист. Итак, наконец, у меня было три листа с тремя таблицами, заполненными, казалось бы, несвязанными данными, которые я обнаружил в Интернете.

Следующим шагом является использование Excel для анализа данных и выявления любых корреляций. Вот где в игру вступает один из моих любимых инструментов анализа данных - сводная таблица.

Анализ данных в Excel с помощью сводной таблицы

Лучше всего создать сводную таблицу на новом пустом листе. Вы хотите использовать мастера для того, что вы собираетесь делать. Чтобы включить мастер сводных таблиц в Excel, нужно одновременно нажимать Alt-D, пока не появится окно с уведомлением. Затем отпустите эти кнопки и нажмите “п” ключ. Затем вы увидите всплывающее окно мастера.

В первом окне мастера, вы хотите выбрать “Несколько диапазонов консолидации”, который позволяет вам выбрать данные из всех листов, которые вы импортировали. Делая это, вы можете объединить все эти, казалось бы, не связанные данные в одну мощную сводную таблицу. В некоторых случаях вам может потребоваться массаж некоторых данных. Например, я должен был исправить “Год” поле в таблице аутизма, чтобы он показал “1994” вместо “1994-95” - чтобы он лучше соответствовал таблицам на других листах, которые также имели поле основного года.

Это общее поле между данными - это то, что вам нужно для того, чтобы попытаться сопоставить информацию, так что имейте это в виду, когда вы ищете в Интернете свои данные.

После того, как сводная таблица готова, и все значения данных отображаются в одной таблице, самое время провести визуальный анализ, чтобы увидеть, есть ли какая-то очевидная связь, которая у вас появляется.

Визуализация данных является ключевым

Если вы экономист, иметь кучу цифр в таблице - это замечательно, но самый быстрый и простой способ получить это “Ага!” Момент, когда вы пытаетесь найти связи, как иголка в стоге сена, - это графики и диаграммы. Как только у вас есть сводная диаграмма со всеми наборами данных, которые вы собрали, пришло время создать свой график. Обычно лучше всего будет работать линейный график, но это зависит от данных. Есть моменты, когда гистограмма работает намного лучше. Постарайтесь понять, какие данные вы просматриваете и какие сравнения форм работают лучше всего..

В этом случае я просматриваю данные с течением времени, поэтому линейный график - действительно лучший способ увидеть тенденции за прошедшие годы. Диаграммы показателей аутизма (зеленый) в сравнении с уменьшенными показателями вакцинации (темно-синий), вакцины против ветряной оспы (светло-синий) и использования сотового телефона (фиолетовый) неожиданно обнаружили странную корреляцию в этом наборе данных, с которым я играл.

Как ни странно, тенденция использования сотовых телефонов с 1994 по 2006 год почти идеально соответствовала росту показателей аутизма за тот же период времени. Несмотря на то, что закономерность была совершенно неожиданной, это прекрасный пример того, как объединение интересных данных может выявить захватывающие потенциальные возможности - предоставляя вам большую проницательность и мотивацию для дальнейшего продвижения вперед и поиска дополнительных данных, которые могут еще больше укрепить вашу гипотезу.

Одна корреляция, подобная приведенной выше, ничего не доказывает. Есть много тенденций, которые нарастают со временем - шаблон может быть совпадением, но он также может быть важным ключом к вашему постоянному поиску большего количества данных в Интернете. К счастью, у вас есть мощный инструмент под названием Excel Web Queries, который сделает этот квест немного проще.

Кредит Фотографии: Кевин Дули через фотокопию cc




О современных технологиях, просто и доступно.
Ваш гид в мире современных технологий. Узнайте как использовать технологии и гаджеты, которые нас окружают каждый день и научитесь открывать интересные вещи в Интернете.