Сделать стартовой  |  Добавить в избранное  |  RSS 2.0  |  Информация авторамВерсия для смартфонов
           Telegram канал ОКО ПЛАНЕТЫ                Регистрация  |  Технические вопросы  |  Помощь  |  Статистика  |  Обратная связь
ОКО ПЛАНЕТЫ
Поиск по сайту:
Авиабилеты и отели
Регистрация на сайте
Авторизация

 
 
 
 
  Напомнить пароль?



Клеточные концентраты растений от производителя по лучшей цене


Навигация

Реклама

Важные темы


Анализ системной информации

» » » Фриц Моисеевич Морген: Открытый корпус текстов русского языка

Фриц Моисеевич Морген: Открытый корпус текстов русского языка


28-11-2012, 16:38 | Политика / Информационные войны | разместил: VP | комментариев: (0) | просмотров: (1 886)

Что такое гражданское общество?

Это когда стадо недовольных жизнью особей собирается в каком-нибудь общественном месте, чтобы всласть нажаловаться друг другу и подтянувшейся прессе на нравы и времена?

Нет, это просто нытьё.

Это когда свора «правозащитников» готовит по заказу спонсоров многостраничный глянцевый донос на собственную страну?

Нет, это банальная работа агентов иностранного государства.

Это когда стайка светлолицых доброжелателей жертвует по пять рублей на богоугодные дела, чтобы лишний раз потешить свою натруженную совесть?

Нет, это просто удовлетворение естественной человеческой потребности быть нужным.

Это когда банда гопников находит себе жертву и издевается над ней, делая вид, будто тем самым она помогает обществу избавиться от врагов?

Нет, это обычное уголовное самоуправство, статья 330 УК РФ.

Гражданское общество — это не враг государства, не его альтернатива и даже не его помощник. Гражданское общество — это параллельная государству структура, которая работает с ним «в одной команде» и орудует там, куда государство лезть не хочет или не может.

Сегодня я приведу пример по-настоящему годного начинания активистов.

Как я уже много раз писал, один из важнейших наших ресурсов — это русский язык. На русский язык плотно завязана вся наша культура. С помощью русского языка мы отбиваемся от культурной агрессии англичан и, наоборот, культурно угнетаем страны с менее распространёнными языками.

Вот, скажем, Эстония. На эстонском языке говорит чуть более одного миллиона человек — это в триста раз меньше, чем на русском. На эстонском языке выходит довольно мало фильмов и книг, а, например, эстонская ВикиПедия содержит скромные 100 тысяч статей, большая часть которых менее полна и актуальна, чем аналогичные русские статьи.

Допустим, некий эстонец хочет прочесть в ВикиПедии статью про трактор. Он заходит сначала на ресурс на его родном языке и видит там заглушку из картинки трактора и ссылки на старую модель трактора Беларусь:

http://et.wikipedia.org/wiki/Traktor

Дальше у эстонца есть выбор. Пойти на русскую ВикиПедию, и прочесть там довольно развёрнутую статью, или же пойти на ВикиПедию английскую, и прочесть там статью тоже длинную, но уже другую:

http://ru.wikipedia.org/wiki/Трактор
http://en.wikipedia.org/wiki/Tractor

Нам, очевидно, выгодно, чтобы эстонец направил мышь именно на русский вариант ресурса. Так как когда эстонец будет принимать решения о выборе деловых партнёров, о месте отдыха и прочая и прочая он будет руководствоваться, не в последнюю очередь, своим уровнем владения русским языком.

Плавно перехожу теперь к сути статьи.

В текущем десятилетии разного рода роботы набегают на нас изо всех щелей. Роботы-пылесосы, роботы-проститутки, роботы-кулинары… тысячи их. И каждому из этих наших слуг надо как-то нас понимать.

Сейчас уже есть технологии, которые позволяют роботам говорить с нами на человеческом языке. В качестве классического примера приведу разработанную специально для айфона технологию Siri. Телефону можно сказать обычным голосом, например, «напомни мне, что четверг в пять у меня встреча» или «найди ближайший ресторан». Телефон распознает запрос и выполнит распоряжение.

Но есть нюанс. Говорить с телефоном придётся на английском. В настоящее время фирма Apple болт класть хотела на поддержку русского языка, хоть на нём и говорит больше людей, чем на итальянском, корейском и немецком, для которых локализованные версии Siri уже есть.

Очевидно, это политическое решение. Русский язык является сейчас одним из главных — если не главным — конкурентом английского языка. Так как остальные «европейские» языки, начиная с того же немецкого, без боя сдают позиции своему английскому старшему брату.

У нас, например, есть свои Яндекс и ВКонтакте. У Германии, Италии, Испании, Франции и остальных свободолюбивых когда-то европейских странах — уже нет. Они пользуются американскими Гуглом и Фейсбуком.

Так вот. Сейчас энтузиасты запустили очень важный проект по поддержке русского языка. Проект по созданию открытого корпуса текстов на русском языке:

http://habrahabr.ru/post/152799/

Что это такое?

Это сборник из размеченных специальным образом статей, который программисты смогут использовать для разработки разного рода компьютерных систем на русском языке.

Сразу приведу пример. Допустим, робот слышит команду «вызывай наряд». Как ему понять о чём идёт речь, о наряде милиции или о национальном наряде? Или, может быть, хозяин запросил у него бухгалтерский наряд-заказ?

Корпус текстов нужен для того, чтобы расшить все эти неоднозначности, разжевать роботу их смысл и, в конечном итоге, научить робота понимать обычную русскую речь.

Размеченные таким образом корпуса есть для многих языков мира. Для многих, но не для русского языка. Хотя — позор на наши седины — размеченный корпус текста есть уже даже для венгерского: для языка, на котором говорит в двадцать (!) раз меньше человек, чем на русском.

Точнее, на русском языке существует несколько закрытых корпусов текстов разного размера. Но разметившие эти тексты частные компании ни разу не спешат делиться своими корпусами с остальными русскоязычными разработчиками.

Что мы с вами можем сделать, чтобы исправить ситуацию?

Очевидно, присоединиться к проекту по разметке свободного корпуса текстов. Согласно подсчётам авторов, для первого этапа работ нужно будет скормить добровольцам четыре миллиона вопросов. Если таковых добровольцев наберётся пять тысяч, то каждому из них нужно будет потратить всего лишь один час времени.

После чего свободно скачиваемый корпус текстов на русском языке будет в полном распоряжении всех отечественных роботостроителей.

Как конкретно происходит «разметка»? Вы заходите на сайт открытого корпуса и берёте на разметку небольшую связку слов:

http://opencorpora.org/

Если вы выберете, например, пул «существительные — родительный/винительный», вам будут показывать фрагменты такого типа:

…Это задает вектор нового персонажа — любила его больше…
…помазывает лбы невесты и жениха освященным маслом…
…только лишь укажите автора текста…


Вам надо будет указывать сайту, где выделенное слово стоит в родительном, а где — в родительном падеже. Это удобнее всего делать, заменяя в уме нужное слово на слово «лиса». «Вектор новой лисы», «укажите лису текста» и так далее — по окончанию слова сразу всё понятно.

Работа для любящего русский язык человека довольно простая, на грани развлечения, что-то типа раскладки пасьянсов или лузганья кроссвордов. Про огромную важность этой работы я уже написал. Поэтому, коллеги, я считаю себя вправе обратиться к вам с просьбой.

Примите, пожалуйста, участие в разметке этого корпуса текстов. И обязательно посоветуйте своим читателям сделать то же самое. Тогда через несколько лет вы сможете сказать своему личному андроиду, что своим умением говорить на русском языке он обязан в том числе и вам.



Источник: fritzmorgen.livejournal.com.

Рейтинг публикации:

Нравится5



Комментарии (0) | Распечатать

Добавить новость в:


 

 
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Чтобы писать комментарии Вам необходимо зарегистрироваться либо войти на сайт под своим именем.





» Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации. Зарегистрируйтесь на портале чтобы оставлять комментарии
 


Новости по дням
«    Ноябрь 2024    »
ПнВтСрЧтПтСбВс
 123
45678910
11121314151617
18192021222324
252627282930 

Погода
Яндекс.Погода


Реклама

Опрос
Ваше мнение: Покуда территориально нужно денацифицировать Украину?




Реклама

Облако тегов
Акция: Пропаганда России, Америка настоящая, Арктика и Антарктика, Блокчейн и криптовалюты, Воспитание, Высшие ценности страны, Геополитика, Импортозамещение, ИнфоФронт, Кипр и кризис Европы, Кризис Белоруссии, Кризис Британии Brexit, Кризис Европы, Кризис США, Кризис Турции, Кризис Украины, Любимая Россия, НАТО, Навальный, Новости Украины, Оружие России, Остров Крым, Правильные ленты, Россия, Сделано в России, Ситуация в Сирии, Ситуация вокруг Ирана, Скажем НЕТ Ура-пЭтриотам, Скажем НЕТ хомячей рЭволюции, Служение России, Солнце, Трагедия Фукусимы Япония, Хроника эпидемии, видео, коронавирус, новости, политика, спецоперация, сша, украина

Показать все теги
Реклама

Популярные
статьи



Реклама одной строкой

    Главная страница  |  Регистрация  |  Сотрудничество  |  Статистика  |  Обратная связь  |  Реклама  |  Помощь порталу
    ©2003-2020 ОКО ПЛАНЕТЫ

    Материалы предназначены только для ознакомления и обсуждения. Все права на публикации принадлежат их авторам и первоисточникам.
    Администрация сайта может не разделять мнения авторов и не несет ответственность за авторские материалы и перепечатку с других сайтов. Ресурс может содержать материалы 16+


    Map