Как я импортирую данные наблюдений НЛО из Интернета в электронную таблицу Google

  • Brian Curtis
  • 0
  • 5119
  • 100
Реклама

Когда дело доходит до онлайновых баз данных и информации, которую можно найти внутри того, что обычно называют “Невидимая сеть 12 лучших поисковых систем для изучения невидимой сети 12 лучших поисковых систем для изучения невидимой сети Google или Bing не могут найти все. Чтобы исследовать невидимую сеть, вам нужно использовать эти специальные поисковые системы. “, Я не твой типичный пользователь. Конечно, я трачу немного больше времени, просматривая онлайн-базы данных в таких местах, как Национальный архив и читальный зал CIA FOIA, но я должен сказать, что ничто не может взволновать меня больше, чем когда я нахожу таблицу на основе HTML, заполненную томами на первый взгляд сложных и не связанных данных.

Дело в том, что таблицы данных - золотая жила важных истин. Данные часто собираются армиями сборщиков данных с сапогами на земле. У вас есть люди из переписи населения США, которые путешествуют по всей стране для получения информации о семье и семье. У вас есть некоммерческие экологические группы, собирающие всевозможную интересную информацию об окружающей среде, загрязнении окружающей среды, глобальном потеплении и многом другом. И если вы в паранормальных или уфологии, есть также постоянно обновляемые таблицы информации о наблюдениях странных объектов в небе над нами.

По иронии судьбы, вы могли бы подумать, что любому правительству в мире было бы интересно узнать, какого рода иностранные суда обнаруживаются в небе над какой-либо страной, но, по-видимому, нет - по крайней мере, в США. В Америке коллекция необычных наблюдений за ремеслами была передана командам любителей-любителей, которые устремляются к новым наблюдениям НЛО, как мотыльки к огню. Мой интерес к этим наблюдениям на самом деле связан не с увлечением инопланетянами или ремеслами с других планет, а с научным увлечением моделями - где и почему больше людей видят вещи в небе, и могут ли эти наблюдения отражать что-то очень реальное и много более приземленный на самом деле происходит.

Чтобы исследовать объемы данных, собираемых командами любителей НЛО, я фактически разработал способ импорта больших таблиц данных HTML в электронную таблицу Google, а затем манипулирования и анализа этих данных для извлечения и обнаружения значимой и важной информации. В этой статье я намерен показать вам, как сделать то же самое.

Важные данные HTML в таблицу Google

В этом примере я собираюсь показать вам, как импортировать любые данные, которые могут храниться в таблице на любом веб-сайте в Интернете, в вашу таблицу Google. Подумайте об огромном объеме данных, доступных сегодня в Интернете, в виде таблиц HTML. В одной только Википедии есть данные в таблицах по таким темам, как глобальное потепление, Бюро переписей США имеет тонны наборов данных о населении, и немного Google поможет вам намного больше, чем это..

В моем примере я начинаю с базы данных в Национальном центре отчетов об НЛО, которая на самом деле выглядит так, как будто это может быть база данных глубокого веба в стиле запросов, но если вы наблюдаете структурирование URL, это на самом деле полусложный веб-интерфейс. основанная на отчетности система, состоящая из статических веб-страниц и статических таблиц HTML - именно то, что нам нужно при поиске данных для импорта.

NUForc.org является одной из тех организаций, которая служит одним из крупнейших центров отчетности по наблюдениям НЛО. Это не единственный, но он достаточно большой, чтобы найти новые наборы данных с текущими наблюдениями за каждый месяц. Вы выбираете просмотр данных, отсортированных по критериям, таким как состояние или дата, и каждый из них предоставляется в виде статической страницы. Если вы отсортируете по дате, а затем нажмете на самую последнюю дату, вы увидите, что в таблице в списке есть статическая веб-страница, названная в соответствии с форматом даты.

Итак, теперь у нас есть шаблон для регулярного извлечения последней информации о наблюдениях из этой базы данных на основе HTML. Все, что вам нужно сделать, это импортировать первую таблицу, использовать самую последнюю запись (верхнюю), чтобы идентифицировать последнее обновление, а затем использовать дату этой публикации, чтобы построить ссылку URL, где существует последняя таблица данных HTML. Для этого просто потребуется пара экземпляров функции ImportHTML, а затем несколько творческих вариантов использования функций манипулирования текстом. Когда вы закончите, у вас будет одна из самых крутых, самостоятельно обновляемых электронных таблиц отчетности. Давайте начнем.

Импорт таблиц и манипулирование данными

Первым шагом, конечно же, является создание новой таблицы.

Итак, как вы импортируете таблицы HTML? Все, что вам нужно, - это URL-адрес, где хранится таблица, и номер таблицы на странице - обычно первая в списке равна 1, вторая - 2 и т. Д. Так как я знаю URL этой первой таблицы, в которой перечислены даты и количество наблюдений в списке, можно импортировать, введя следующую функцию в ячейку A1.

= ImportHtml (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”Таблица”,1)

H2 держит функцию “= Час (в настоящее время ())“, поэтому таблица будет обновляться каждый час. Это, вероятно, экстремально для данных, которые обновляют это нечасто, поэтому я, вероятно, мог бы сойти с рук, делая это ежедневно. В любом случае, вышеупомянутая функция ImportHTML выводит таблицу, как показано ниже.

Вам нужно будет немного поработать с данными на этой странице, прежде чем вы сможете собрать воедино URL для второй таблицы со всеми наблюдениями НЛО. Но продолжайте и создайте второй лист в рабочей тетради.

Прежде чем пытаться построить этот второй лист, пора извлечь дату публикации из этой первой таблицы, чтобы создать ссылку на вторую таблицу. Проблема в том, что дата вводится как формат даты, а не как строка. Итак, сначала вам нужно использовать функцию TEXT для преобразования даты публикации отчета в строку:

= Текст (A2,”мм / дд / гг”)

В следующей ячейке справа вам нужно использовать функцию SPLIT с “/” разделитель, чтобы разбить дату на месяц, день и год.

= Сплит (D2,”/”)

Хорошо выглядеть! Тем не менее, каждый номер должен быть двухзначным. Вы делаете это в ячейках прямо под ними, снова используя команду TEXT.

= Текст (E2,”00" )

Формат “00” (это нули) заставляет две цифры, или “0” в качестве заполнителя.

Теперь вы готовы перестроить весь URL к последней таблице HTML новых наблюдений. Вы можете сделать это, используя функцию CONCATENATE и собрав воедино все биты информации, которые вы только что извлекли из первой таблицы..

= Конкатенации (“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.HTML”)

Теперь, на новом листе, который вы создали выше (чистый лист), вы собираетесь сделать новый “ImportHtml” функции, но на этот раз для первого параметра URL-ссылки, поэтому вы вернетесь к первой электронной таблице и щелкните ячейку с только что созданной URL-ссылкой.

Второй параметр “Таблица” и последнее “1” (потому что таблица визирования является первой и единственной на странице). Нажмите Enter, и вы только что импортировали весь объем наблюдений, которые были опубликованы в эту конкретную дату..

Итак, вы, вероятно, думаете, что это хороший новизна и все такое - я имею в виду, в конце концов, что вы сделали, это извлекли существующую информацию из таблицы в Интернете и перенесли ее в другую таблицу, хотя и частную в вашем Аккаунт Google Docs. Да, это правда. Однако теперь, когда он находится в вашей личной учетной записи Google Docs, у вас под рукой есть инструменты и функции, позволяющие лучше анализировать эти данные и начать обнаруживать удивительные связи..

Использование сводных отчетов для анализа импортированных данных

Совсем недавно я написал статью об использовании сводных отчетов в электронной таблице Google. Станьте аналитиком данных за ночь с помощью инструментов отчета Google Spreadsheet. Станьте экспертом по данным за ночь с помощью инструментов отчета Google Spreadsheet. Знаете ли вы, что это один из лучших инструментов для обработки данных? анализ на самом деле Google Spreadsheet? Причина этого не только в том, что он может делать практически все, что вам захочется ... выполнять всевозможные крутые подвиги анализа данных. Что ж, вы можете выполнять ту же самую удивительную акробатику анализа данных на данных, которые вы импортировали из Интернета, - давая вам возможность обнаруживать интересные связи, которые, возможно, никто еще не обнаружил перед вами..

Например, из окончательной таблицы наблюдений я мог бы решить использовать сводный отчет, чтобы взглянуть на число различных уникальных форм, зарегистрированных в каждом состоянии, по сравнению с общим числом наблюдений в этом конкретном состоянии. Наконец, я также отфильтровываю все упоминания “пришельцы” в разделе комментариев, мы надеемся, отсеять некоторые из более крупных записей.

Это на самом деле показывает некоторые довольно интересные вещи сразу, например, тот факт, что в Калифорнии явно зарегистрировано наибольшее количество зарегистрированных наблюдений среди всех других штатов, а также различие в сообщении о самом большом количестве форм ремесел в стране. Это также показывает, что Массачусетс, Флорида и Иллинойс также играют большую роль в департаменте наблюдений НЛО (по крайней мере, по самым последним данным).

Еще одна интересная вещь в Google Spreadsheet - это широкий спектр доступных вам диаграмм, включая Geo-Map, которая позволяет вам планировать “горячие точки” данных в графическом формате, который действительно выделяется и делает эти связи внутри данных совершенно очевидными.

Если вы думаете об этом, это действительно только верхушка айсберга. Если теперь вы можете импортировать данные из таблиц данных на любой странице в Интернете, просто подумайте о возможностях. Получите последние номера акций, самые последние 10 лучших книг и авторов в списке бестселлеров New York Times, или самые продаваемые автомобили в мире. Существуют HTML-таблицы практически на любую тему, которую вы можете себе представить, и во многих случаях эти таблицы часто обновляются..

ImportHtml дает вам возможность подключить вашу электронную таблицу Google к Интернету и получать данные, которые там существуют. Он может стать вашим личным центром информации, который вы можете использовать для манипулирования и преобразования в формат, с которым вы можете работать. Еще одна очень крутая вещь, которую нужно любить в Google Spreadsheet.

Вы когда-нибудь импортировали данные в свои таблицы? Какие интересные вещи вы обнаружили в этих данных? Как вы использовали данные? Поделитесь своим опытом и идеями в разделе комментариев ниже!

Кредиты изображений: Бизнес График




О современных технологиях, просто и доступно.
Ваш гид в мире современных технологий. Узнайте как использовать технологии и гаджеты, которые нас окружают каждый день и научитесь открывать интересные вещи в Интернете.