Какой это язык? 5 инструментов для определения неизвестных языков

  • Gabriel Brooks
  • 0
  • 2011
  • 631
Реклама

я??´ я›¹я'¬я??´яŠ¸я-?? í ™˜я˜??. я??´ке ?? ??³´ê¸° м›?? 본я??´ë‹¤

Какой это язык? Китайский язык? японский язык?

Это на самом деле корейский. Обнаружение этого вручную заняло бы у меня много времени. К счастью, я нашел несколько очень точных инструментов, которые могут сделать это автоматически. Все они перечислены ниже.

Эксперимент: Я проверил сайты, используя образец текста (1-2 предложения с 8 словами) из следующих языков: португальский, русский, корейский, вьетнамский, итальянский, турецкий, польский, украинский, азербайджанский, словенский, македонский, голландский, филиппинский (тагальский), Греческий, галисийский, чешский, белорусский, финский, татарский и норвежский.

Всего я протестировал 20 разных языков.

3 инструмента для обнаружения текста на неизвестном языке

1. LANGID (сдал 18 из 20 тестов, не сдал татарский и белорусский)

Плюсы: В целом, отличный онлайн-инструмент. Он предлагает базовую функциональность обнаружения текста, и у них также есть боты для Twitter и электронной почты для еще более быстрых результатов..

Минусы: Их движок основан на Google API, но, похоже, они дают лучшие результаты, чем детектор Google, описанный ниже. Кажется, они знают, как очень хорошо использовать вещи. Мне не понравилось, что у них нет собственного уникального алгоритма обнаружения языков.

2. Google Language Detector [больше не доступен] (сдал 17 из 20 тестов, не сдал португальский, таглог и белорусский)

Плюсы: У Google один из лучших в мире API для определения языка. Хорошо, что вы видите вероятность того, что результат, который они отображают, является правдой. Они смогли пройти большинство тестовых испытаний.

Минусы: Я был очень удивлен, что они не прошли португальский тест. Кажется, у них есть (я надеюсь, временная) ошибка с этим языком. Кроме того, они, безусловно, могут сделать лучшую работу по улучшению дизайна страницы.

3. Какой это язык (сдал 11 из 20 тестов, не сдал русский, корейский, украинский, азербайджанский, македонский, тагальский, греческий, галисийский и татарский)

Плюсы: Некоторые языки, такие как южнославянские (сербский, хорватский, словенский) очень похожи. Если вы введете какой-нибудь хорватский текст, скажем, этот веб-сайт сообщит вам, что текст также может быть сербским или словенским.

Минусы: Им нужно работать над тем, чтобы сделать их систему обнаружения более сложной. Я думал о переводе Translated.net (еще один веб-сайт для определения языка) вместо этого, но Translated обещал обнаружение большего количества языков и фактически сделал хуже, чем WhatLanguageIsThis.com.

2 инструмента для обнаружения сайтов на неизвестных языках

4. переводчик Google с Определить язык как первый вариант

Прошло: 18 из 20, не пропустили белорусов и татар.

Плюсы: Этот инструмент делает свою работу очень хорошо. То, что мне нравится в Google Translate Google Translate 2.1, отображается с родной клавиатурой iOS 7 и дополнительной поддержкой языков Google Translate 2.1 появляется с родной клавиатурой iOS 7 и другими языками поддержки Обновление до Google Translate 2.1 на вашем устройстве iOS и поддержка перевода поддержка рукописного ввода для новых языков. Google Translate, наконец, получает новую клавиатуру iOS 7, которая выполняет все ... в том случае, если она не поддерживает определенный язык, она отображает следующий экран:

Это отличный детектор языка, если вы спросите меня!

5. Microsoft Bing Translator с Автоматическое распознавание как первый вариант.

Прошло: 8 из 20, не пропустили голландский, вьетнамский, турецкий, украинский, азербайджанский, словенский, македонский, тагальский, греческий, галисийский, чешский и белорусский

Плюсы: Он поддерживает ограниченное количество языков. Для этих языков это делает свою работу хорошо.

Минусы: Я очень разочарован Microsoft. У них очень ограниченное количество языков для обнаружения и перевода. Топ-4 онлайн-перевода. Топ-4 онлайн-перевода, и их функция автоопределения просто ужасна. Если вы введете язык, который они не поддерживают, вы получите неверный результат, вместо того, чтобы сказать, что он не поддерживает этот язык.

мысли

В целом, по моему мнению, вышеупомянутые инструменты движутся в правильном направлении. В настоящее время они являются лучшими для обнаружения языков в Интернете и делают свою работу довольно хорошо, когда дело доходит до популярных языков. Однако они должны работать над добавлением более непонятных языков (ни один из инструментов не смог распознать татарский), и я уверен, что все они, особенно Google, пойдут в этом направлении в ближайшем будущем..

Изображение предоставлено: Kanko *




О современных технологиях, просто и доступно.
Ваш гид в мире современных технологий. Узнайте как использовать технологии и гаджеты, которые нас окружают каждый день и научитесь открывать интересные вещи в Интернете.