
Michael Fisher
0
5140
594
Вы верите в то, что если что-то публикуется в Интернете, оно публикуется навсегда? Что ж, сегодня мы собираемся развеять этот миф.
Правда в том, что во многих случаях вполне возможно искоренить информацию из Интернета. Конечно, есть запись веб-страниц, которые были удалены, если вы ищете Wayback Machine, верно? Да, абсолютно. На Wayback Machine есть записи о веб-страницах, появившихся много лет назад - страницы, которые вы не найдете в поиске Google, потому что веб-страница больше не существует. Кто-то удалил его, или сайт был закрыт.
Так что, обойти это невозможно, верно? Информация навсегда будет выгравирована на камне Интернета, что там увидят поколения? Ну не совсем.
Правда в том, что, хотя может быть трудно или невозможно уничтожить основные новостные сюжеты, которые распространяются с одного новостного сайта или блога на другой, как вирус, на самом деле довольно легко полностью удалить веб-страницу или несколько веб-страниц из всех записей. существования - удалить эту страницу как для поисковых систем, так и для машины Wayback. Новая машина Wayback позволяет визуально путешествовать назад по Интернет-времени. Новая машина Wayback позволяет визуально путешествовать назад по интернет-времени. Кажется, что после запуска Wayback Machine в В 2001 году владельцы сайтов решили отказаться от серверной части на основе Alexa и перепроектировать ее со своим открытым исходным кодом. После проведения испытаний с…. Конечно, есть подвох, но мы вернемся к этому..
3 способа удалить страницы блога из сети
Первый метод - тот, который используют большинство владельцев веб-сайтов, потому что они не знают ничего лучше - просто удаляют веб-страницы. Это может произойти из-за того, что вы поняли, что на вашем сайте есть дублированный контент, или из-за того, что у вас есть страница, которую вы не хотите показывать в результатах поиска..
Просто удалите страницу
Проблема с полным удалением страниц с вашего веб-сайта заключается в том, что, поскольку вы уже создали страницу в сети, скорее всего, будут ссылки с вашего собственного сайта, а также внешние ссылки с других сайтов на эту конкретную страницу. Когда вы удаляете его, Google немедленно распознает вашу страницу как отсутствующую..
Таким образом, удаляя свою страницу, вы не только создали проблему с “Не найдено” сканировать ошибки для себя, но вы также создали проблему для тех, кто когда-либо ссылался на страницу. Обычно пользователи, которые попадают на ваш сайт по одной из этих внешних ссылок, увидят вашу страницу 404, что не составляет большой проблемы, если вы используете что-то вроде пользовательского кода 404 Google, чтобы дать пользователям полезные предложения или альтернативы. Но вы могли бы подумать, что могут быть более изящные способы удаления страниц из результатов поиска, не отбрасывая все эти 404-х для существующих входящих ссылок, верно?
Ну есть.
Удалить страницу из результатов поиска Google
Прежде всего, вы должны понимать, что если веб-страница, которую вы хотите удалить из результатов поиска Google, не является страницей с вашего собственного сайта, то вам не повезло, если на то нет законных причин или сайт опубликовал вашу личную информацию. информация онлайн без вашего разрешения. В таком случае воспользуйтесь средством устранения неполадок при удалении Google, чтобы отправить запрос на удаление страницы из результатов поиска. Если у вас есть действительное дело, вы можете добиться некоторого успеха, удалив страницу - конечно, вы можете добиться еще большего успеха, просто связавшись с владельцем сайта. Как удалить ложную личную информацию в Интернете Как удалить ложную личную информацию в Интернете, как я описал, как сделать еще в 2009 году.
Теперь, если страница, которую вы хотите удалить из результатов поиска, находится на вашем собственном сайте, вам повезло. Все, что вам нужно сделать, это создать robots.txt файл и убедитесь, что вы запретили либо конкретную страницу, которую вы не хотите в результатах поиска, либо весь каталог с содержимым, которое вы не хотите индексировать. Вот как выглядит блокировка одной страницы.
Пользовательский агент: * Disallow: /my-deleted-article-that-i-want-removed.html
Вы можете заблокировать ботов от сканирования целых каталогов вашего сайта следующим образом.
Агент пользователя: * Disallow: / content-about-personal-stuff /
У Google есть отличная страница поддержки, которая может помочь вам создать файл robots.txt, если вы никогда его не создавали. Это работает очень хорошо, как я недавно объяснил в статье о структурировании сделок по синдикации. Как договориться о сделках по синдикации и защитить ваши рейтинги поиска Как договориться о сделках по синдикации и защитить ваши рейтинги поиска Синдикация - все это в моде в наши дни. Но вдруг вы можете обнаружить, что партнер по синдикации указан выше, чем вы, в результатах поиска по истории, которую вы изначально написали! Защитите свой рейтинг поиска. чтобы они не причинили вам вреда (попросив партнеров по синдикации запретить индексацию своих страниц там, где вы синдицированы). Как только мой партнер по синдикации согласился сделать это, страницы с дублированным контентом из моего блога полностью исчезли из поисковых списков..
Только основной веб-сайт занимает третье место для страницы, где они перечисляют наш заголовок, но мой блог теперь указан как на первом, так и на втором месте; что-то, что было бы почти невозможно, если бы сайт более высокого уровня оставил проиндексированную дублированную страницу.
Многие люди не понимают, что этого также можно достичь с помощью Интернет-архива (Wayback Machine). Вот строки, которые нужно добавить в файл robots.txt, чтобы это произошло.
Агент пользователя: ia_archiver Disallow: / sample-category /
В этом примере я говорю интернет-архиву, что нужно удалить что-либо из подкаталога категории-образца на моем сайте с Wayback Machine. Интернет-архив объясняет, как это сделать, на странице справки об исключении. Это также, где они объясняют, что “Интернет-архив не заинтересован в предоставлении доступа к веб-сайтам или другим интернет-документам, авторы которых не хотят, чтобы их материалы находились в коллекции..”
Это противоречит общепринятому мнению, что все, что публикуется в Интернете, попадает в архив на всю вечность. Нет, веб-мастера, владеющие контентом, могут специально удалить контент из архива, используя подход robots.txt..
Удалить отдельную страницу с метатегами
Если у вас есть только несколько отдельных страниц, которые вы хотите удалить из результатов поиска Google, вам вообще не нужно использовать подход robots.txt, вы можете просто добавить правильные “роботы” метатег на отдельные страницы, и сказать роботам не индексировать и не переходить по ссылкам на всей странице.
Вы могли бы использовать “роботы” выше, чтобы запретить роботам индексировать страницу, или вы можете указать роботу Google не индексировать страницу, чтобы страница удалялась только из результатов поиска Google, а другие поисковые роботы могли по-прежнему получать доступ к содержимому страницы.
Вам решать, как вы будете управлять тем, что роботы будут делать со страницей, и будет ли страница в списке. Для нескольких отдельных страниц это может быть лучшим подходом. Чтобы удалить весь каталог содержимого, используйте метод robots.txt..
Идея “Удаление” содержание
Этот вид превращает все понятие “удаление контента из интернета” на его голову. Технически, если вы удалите все свои собственные ссылки на страницу на своем сайте и удалите ее из Поиска Google и Интернет-архива, используя технику robots.txt, страница предназначена для любых целей и задач. “удаленный” из Интернета. Круто то, что, если есть ссылки на страницу, эти ссылки будут работать, и вы не вызовете 404 ошибки для этих посетителей..
Это более “нежный” подход к удалению контента из Интернета без полного искажения существующей ссылки вашего сайта в Интернете. В конце концов, как вы поступите с управлением контентом, собираемым поисковыми системами, и Интернет-архив зависит от вас, но всегда помните, что, несмотря на то, что люди говорят о продолжительности жизни вещей, публикуемых в Интернете, это действительно полностью под вашим контролем..