Викисловарь
Викисловарь | |
---|---|
англ. Wiktionary | |
![]() | |
![]() | |
URL | wiktionary.org |
Коммерческий | Нет |
Тип сайта | Сетевой словарь |
Регистрация | Необязательная |
Язык (-и) | 170 |
Расположение сервера | Майами |
Владелец | Фонд Викимедиа |
Создатель | Джимми Уэйлс |
Начало работы | 12 декабря2002 |
![]() |
Викислова́рь (англ. Wiktionary) — свободно пополняемый многофункциональный многоязычныйсловарь итезаурус, основанный навики-движке. Один из проектовфонда «Викимедиа». Изначально появился на английском языке12 декабря2002 года.
В словаре содержатсяграмматические описания, толкования ипереводы слов. Кроме того, в статьях может отражаться информация обэтимологии,фонетических свойствах исемантических связях слов. Таким образом, Викисловарь — попытка объединить в одном продуктеграмматический,толковый,этимологический и многоязычный словари, а также тезаурус.
Данные Викисловаря активно используются при решении различных задач, связанных с машинной обработкой текста и речи.➤
Лексикографическая концепция
[править |править код]Благодаря взаимосвязи между разными языковыми разделами Wiktionary, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать концепции, инструменты и лексикографические материалы, созданные их коллегами — носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная концепция универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Концепция предполагает в конечном итоге полное, всестороннее описаниевсех лексических единицвсех естественных (и основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах лексической единицы, её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой концепции может варьироваться в разных языковых разделах проекта.[источник не указан 1601 день]
В каждом языковом разделе «титульный» язык является центральным — все статьи пишутся исключительно на нём, кроме того, ставится цель дать переводы слов и других единиц этого языка на максимально возможное число других языков. Слова других языков переводятся, как правило, только на этот «титульный» язык. Так, в русском Викисловаре для русских слов даются толкования и переводы на иностранные языки, для иностранных слов вместо толкований даются переводы нарусский язык.
При описании морфологии делается попытка дать максимально полную картину словоизменения, включая указание класса словоизменения. В частности, морфологические сведения по русским лексемам даются в соответствии с классификацией, предложеннойА. А. Зализняком.[1]
Для пополнения Викисловаря создан обширныйсписок литературы, в Английском Викисловаре выработаны правила по включению термина в словарь (см.Criteria for inclusion). В отличие отрусской Википедии, где приоритет при подборе материала отдаётся авторитетным источникам[Прим 1], в русском Викисловаре превалирует проведённый редактором статьи анализ словоупотребления[Прим 2].
Тезаурус
[править |править код]Викисловарь содержит следующие семантические отношения:синонимы,антонимы,гиперонимы,гипонимы,согипонимы,холонимы,меронимы,паронимы[2].
Википедия и Викисловарь
[править |править код]Викисловарь не включает подробного описания фактов и энциклопедической информации. Тем не менее Викисловарь предоставляет уникальную информацию, отсутствующую в Википедии: словосочетания, поговорки, аббревиатуры, акронимы, описание ошибок правописания, упрощённые/искажённые варианты написания / произнесения слов, спорные случаи употребления,протологизмы,ономатопею, разные стили (напр., разговорный) и предметные области[3]. Таким образом, Википедия и Викисловарь дополняют друг друга.
Викисловарь сходен сВикипедией:
- естьвнутренние ссылки на статьи о словах внутри Викисловаря;
- есть категории;
- естьинтервики, ссылающиеся на статьи о том же слове в иноязычном словаре[3].
Русскоязычный раздел
[править |править код]![]() | |
---|---|
![]() | Силонов А. Ф.«Викисловарь: цели, методы формирования и структура» // Семинар «Компьютерная лингвистика», 2015 |
Динамика развития русского Викисловаря
[править |править код]![]() | В разделене хватаетссылок на источники (см.рекомендации по поиску). Информация должна бытьпроверяема, иначе она может быть удалена. Вы можетеотредактировать статью, добавив ссылки наавторитетные источники в видесносок.(28 февраля 2021) |
Русский раздел Wiktionary был создан весной2004 года. На протяжении полутора лет он практически не развивался, пополняясь бессистемно, преимущественно недоброкачественным материалом. Ситуация начала меняться в конце2005 — начале2006 годов.[источник не указан 1601 день]
В2006 году был назначен первый администратор русского ВикисловаряSchwallex, объём статей увеличился почти в четыре раза по сравнению с предыдущим годом, создан мощный инструментарий для описания морфологии, начала формироваться развитая система семантических категорий.
К осени2006 года число статей в русском Викисловаре достигло 10 000; затем, благодаря созданию бота, использующего словники других разделов Wiktionary для генерации статей-болванок в русском разделе, за полтора месяца было добавлено ещё около 70 000 статей.7 ноября2006 года Викисловарь преодолел отметку 80 000, а10 декабря2006 года был взят рубеж в 100 000 статей.17 декабря2018 года количество статей превысило 1 000 000. Число активных участников составило порядка 230.
В отличие от ситуации с традиционными словарями, полнота Викисловаря не может быть адекватно оценена по формальному показателю количества статей. Автоматический счётчик не делает различий между полупустыми болванками и по-настоящему информативными статьями, кроме того, он не учитывает внутриязыковой и межъязыковой омонимии. К примеру, словарный входбор числится как одна статья, между тем в этой статье описано несколько омонимичных лексем русского языка, а также одноименные лексемы других языков (болгарского, татарского), — в традиционных словарях этот материал был бы оформлен и учтён в виде нескольких статей[источник не указан 1601 день].
Большинство исследователей признаёт лексикографическую значимость Русского Викисловаря, однако отмечает его неакадемический характер, говорит о нём как о форме народной лексикографии.
Сравнение с другими Викисловарями
[править |править код]
Начиная с августа 2008 года, русский Викисловарь вышел на первое место по размеру базы данных среди всех Викисловарей[5]. В то же время количество статей в русском Викисловаре не самое большое[6]. Это отчасти объясняется тем, что у проектов, в которых статей больше, чем в русском Викисловаре, статьи могут иметь в среднем меньший размер, в чём можно убедиться на сайте статистики[7].
Кроме того, русский Викисловарь по сравнению с другими разделами Wiktionary содержит большее количество вспомогательной информации, включая справочные таблицы, списки частотных слов и т. п. (в отличие от словарных статей, составляющих так называемое основное пространство имён, такая информация размещается в разделах «Приложения», «Индексы» и т. п.). Значительное количество статей в русском Викисловаре всё ещё является болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела)[источник не указан 1601 день].
Авторами было подсчитано число словарных статей о русских словах, число статей с толкованиями и без них — в двух Викисловарях (на иллюстрации). Политика редакторов Английского Викисловаря (не создавать статей-заготовок) подтвердилась: словарных статей о русских словах без толкований всего 5,57 %. В Русском Викисловаре таких статей — 60,39 %. Однако в Русском Викисловаре (по данным на 2011 год) почти в 3,4 раза больше словарных статей с толкованиями для русских слов, чем в Английском Викисловаре: 53,6 тысячи против 15,7 тысячи[4].
Применение вNLP задачах
[править |править код]Для использования лексикографических данных Викисловарей при решении задачавтоматической обработки текста и речинеобходимо преобразовать тексты словарных статей (слабоструктурированные данные[8]) в машиночитаемый формат[9][10][11].
Извлечение данных из Викисловарей является непростой задачей. Можно выделить следующие трудности[12]:
- регулярное и частое изменение как данных, так и самой структуры статей;
- разные Викисловари имеют различную структуру и формат статей[Прим 3];
- технологиявики изначально ориентирована на удобство работы человека, а не на машинную обработку.
Существует несколькопарсеров для разных Викисловарей[13]:
- DBpedia Wiktionary — одно из расширений проектаDBpedia, данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи[14],регулярные выражения[15] иFST-разновидностьконечного автомата[16].
- JWKTL (Java Wiktionary Library) —API к данным Английского и Немецкого Викисловарей[17]. Извлекаются: язык, часть речи, толкование, цитаты, семантические отношения, этимология и переводы. Программа доступна для некоммерческого использования.
- wikokit — парсер Английского и Русского Викисловарей[18]. Извлекаются: язык, часть речи, толкование, цитаты[19] (только для Русского Викисловаря), семантические отношения[20] и переводы. Исходный код программы доступен на условиях открытоймультилицензии.
С помощью Викисловарей решаются разнообразные задачи, связанные с обработкой текста и речи[21]:
- машинный перевод на основе правил междунидерландским и языкомафрикаанс; используются данные Английского и Нидерландского Викисловарей и двух википедий в рамках системыApertium[22];
- создание машиночитаемого словаря парсером NULEX, интегрирующего открытые лингвистические ресурсы: Английский Викисловарь,WordNet иVerbNet[23]. Для существительного из Английского Викисловаря извлекались часть речи и форма множественного числа, для глаголов — время. Для извлечения данных из Викисловаря использовалась методикаScreen scraping;
- распознавание исинтез речи, где Викисловарь выступает в роли источника данных для автоматического построения словаря произношений[24]. Извлекаются пары слово-произношение (транскрипция в системеМФА) из Чешского, Английского, Французского, Немецкого, Польского и Испанского Викисловарей[Прим 4]. При проверке самое большое число ошибок оказалось в транскрипциях, извлечённых из Английского Викисловаря[25];
- построение онтологий[26] ибаз знаний[27];
- отображение онтологий[28];
- упрощение текста. В работе[29] выполняется оценка сложности слов на основе данных Викисловаря. Для слова из Английского Викисловаря извлекаются: размер словарной статьи, число частей речи, число значений и число переводов. Авторы[29] предположили, что более простыми, базовыми, употребимыми будут те слова, у которых больше значений (то есть размер статьи будет больше), больше частей речи и больше переводов. Далее найденные в тексте «сложные» слова необходимо перефразировать, найти более «простые» эквиваленты, что приведёт к упрощению (адаптации) текста;
- частеречная разметка. В работе (Ли и др., 2012)[30] на основе данных Английского Викисловаря построены POS-tagger’ы для восьми языков, имеющих «бедные лингвистические ресурсы», с использованиемскрытых марковских моделей.[Прим 5]
- анализ тональности текста[31].
См. также
[править |править код]Примечания
[править |править код]Комментарии
- ↑Википедия:Авторитетные источники
Статьи в Википедии должны основываться на опубликованныхавторитетных источниках.
- ↑Викисловарь: Лексикографическая концепция
При наличии разногласий относительно каких-либо описываемых свойств какой-либо языковой единицы приоритет (с точки зрения доказательности) отдаётся корпусным источникам.
- ↑Сравните, например, структуру и правила оформления статей вАнглийском Викисловаре иРусском Викисловаре.
- ↑Если в словарной статье несколько транскрипций, то берётся первая.
- ↑Исходный код программы и результаты частеречной разметки доступны онлайн:https://code.google.com/p/wikily-supervised-pos-taggerАрхивная копия от 14 апреля 2013 наWayback Machine
Источники
- ↑Использование словаря Зализняка
- ↑Правила оформления статей
- ↑12Zesch et al, 2008, p. 2.
- ↑12Смирнов и др., 2012.
- ↑Статистика викисловарей: Размер базы данных (неопр.). Дата обращения: 28 октября 2010.Архивировано 10 августа 2011 года.
- ↑Статистика викисловарей (неопр.). Дата обращения: 14 февраля 2010.Архивировано 5 января 2009 года.
- ↑Статистика викисловарей: Байтов на статью (неопр.). Дата обращения: 14 февраля 2010.Архивировано 10 августа 2011 года.
- ↑Meyer and Gurevych, 2012, p. 140.
- ↑Zesch et al, 2008, Figure 1, p. 4.
- ↑Meyer and Gurevych, 2010, p. 40.
- ↑Крижановский, Преобразование, 2010, с. 1.
- ↑Hellmann and Auer, 2013, стр. 16 в PDF, p. 302.
- ↑Hellmann et al, 2012, Table 1, p. 3.
- ↑Hellmann et al, 2012, pp. 8—9.
- ↑Hellmann et al, 2012, p. 10.
- ↑Hellmann et al, 2012, p. 11.
- ↑Zesch et al, 2008.
- ↑Крижановский, Преобразование, 2010.
- ↑Крижановский, 2011.
- ↑Крижановский, Сравнение, 2010.
- ↑Смирнов и др., 2012, pp. 233—234.
- ↑Otte and Tyers, 2011.
- ↑McFate and Forbus, 2011.
- ↑Schlippe et al., 2012.
- ↑Schlippe et al., 2012, p. 4804.
- ↑Meyer and Gurevych, 2012.
- ↑ConceptNet 5 (неопр.). Дата обращения: 17 апреля 2013.Архивировано 19 апреля 2013 года.
- ↑Lin and Krizhanovsky, 2011.
- ↑12Medero and Ostendorf, 2009.
- ↑Li et al, 2012.
- ↑Chesley et al, 2006.
Литература
[править |править код]- Крижановский А.Преобразование структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных : препринт. — 2010.
- Крижановский А.Сравнение тезаурусов Русского и Английского Викисловарей, преобразованных в машиночитаемый формат : препринт. — 2010.
- Крижановский А.Оценка использования корпусов и электронных библиотек в Русском Викисловаре // Труды международной конференции «Корпусная лингвистика–2011». —СПб.: С.-Петербургский гос. университет, Филологический факультет, 2011. — С. 217—222. — 348 с. —ISBN 978-5-8465-0005-5.
- Мейстер Г. И.Русский Викисловарь как лексикографический проект // Nová rusistika. — 2022. — Т. 15, № 2. — С. 21-38.
- Смирнов А. В., Круглов В. М., Крижановский А. А., Луговая Н. Б., Карпов А. А., Кипяткова И. С.Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. —СПб., 2012. — Т. 23. — С. 231–253.
- Chesley P., Vincent B., Li Xu, Srihari R. K.Using verbs and adjectives to automatically classify blog sentiment // Training. — 2006. — Т. 580. — С. 233—235.
- Hellmann S., Brekle J., Auer S.Leveraging the Crowdsourcing of Lexical Resources for Bootstrapping a Linguistic Data Cloud : Proc. Joint Int. Semantic Technology Conference (JIST), Dec 2-4. — Nara, Japan, 2012.
- Hellmann S., Auer S.Towards Web-Scale Collaborative Knowledge Extraction // The People’s Web Meets NLP / Gurevych, Iryna; Kim, Jungi. — Springer, 2013. — С. 287—313. — 378 с. — (Theory and Applications of Natural Language Processing). —ISBN 978-3-642-35084-9.
- Li S., Graça J. V., Taskar B.Wiki-ly supervised part-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Jeju Island, Korea: Association for Computational Linguistics, 2012. —С. 1389—1398. Архивировано изоригинала 22 мая 2013 года.
- Lin F., Krizhanovsky A.Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint // Proc. of the 13th Russian Conference on Digital Libraries RCDL’2011. October 19-22, Voronezh, Russia. — 2011. — С. 19—26.
- McFate C., Forbus K.NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA - Short Papers. — The Association for Computer Linguistics, 2011. — С. 363—367. —ISBN 978-1-932432-88-6.
- Medero J. and Ostendorf M.Analysis of vocabulary difficulty using wiktionary // Proc. SLaTE Workshop. — 2009.
- Meyer C. M. and Gurevych I.Worth its Weight in Gold or Yet Another Resource - A Comparative Study of Wiktionary, OpenThesaurus and GermaNet : Proc. 11th International Conference on Intelligent Text Processing and Computational Linguistics,. — Iasi, Romania, 2010. —С. 38—49.Архивировано 1 декабря 2017 года.
- Meyer C. M. and Gurevych I.OntoWiktionary – Constructing an Ontology from the Collaborative Online Dictionary Wiktionary // Semi-Automatic Ontology Development: Processes and Resources / M. T. Pazienza and A. Stellato. — IGI Global, 2012. — С. 131—161. —ISBN 978-1-4666-0188-8.
- Otte P., Tyers F. M.Rapid rule-based machine translation between Dutch and Afrikaans // EAMT 2011: proc. of the 15th conference of the European Association for Machine Translation / Mikel L. Forcada, Heidi Depraetere, Vincent Vandeghinste. — Leuven, Belgium, 2011. — С. 153—160.
- Schlippe T., Ochs S., Schultz T.Grapheme-to-phoneme model generation for Indo-European languages // In Proceedings of The 37th International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2012), Kyoto, Japan, 25-30 March. — 2012. — С. 4801—4804.
- Zesch T., Müller C., Gurevych I.Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary. : Proc. of the 6th International Conference on Language Resources and Evaluation. — Marrakech, Morocco, 2008.
Ссылки
[править |править код]В статье есть списокисточников, ноне хватаетсносок. Без сносок сложноопределить, из какого источника взято каждое отдельное утверждение. Вы можете улучшить статью, проставивсноски на источники, подтверждающие информацию. Сведения без сносокмогут быть удалены.(28 февраля 2021) |
![]() | Эту статью нужно проверить на соответствиекритериямвзвешенности изложения. Возможно, содержание статьи нарушает принцип взвешенного изложения, представляя малозначимые мнения и факты так же, как и более важные, либо уделяет слишком много места описанию какого-то одного аспекта темы в ущерб другим, не менее существенным. Пожалуйста, улучшите её в соответствии справилами написания статей.(28 февраля 2021) |
- Википедия:Cite web (заменить webcitation-архив: deadlink no)
- Википедия:Cite web (не указан язык)
- ПРО:ИТ:Статьи по алфавиту
- ПРО:ИТ:Последняя правка: в текущем месяце
- Википедия:Статьи без источников (не распределённые по типам)
- Википедия:Нет источников с февраля 2021
- Википедия:Статьи с утверждениями без источников более 14 дней
- Википедия:Статьи с разделами без ссылок на источники с февраля 2021 года
- Википедия:Статьи без сносок с февраля 2021 года
- Википедия:Статьи без сносок
- Википедия:Статьи с нарушением взвешенности изложения с февраля 2021 года
- Википедия:Статьи с нарушением взвешенности изложения
- Википедия:Статьи с шаблонами недостатков по алфавиту
- Страницы, использующие волшебные ссылки ISBN