Вікідані:Лексикографічні дані/Документація

This page is a translated version of the page Wikidata:Lexicographical data/Documentation and the translation is 32% complete.

Це головна сторінка документації щодо лексикографічних даних у Вікіданих. Вона має на меті описати загальну інформацію про лексеми Вікіданих: те, як вони структуровані, як їх можна редагувати та що можна додати для їх збагачення.

Зауважте, що хоча інформація з цієї сторінки може широко застосовуватись до більшості мов, те, що працює для моделювання однієї мови, не завжди працюватиме для моделювання іншої мови. Щоб отримати інформацію про моделювання лексем для певних мов, відвідайте сторінки документації для них.

Більше технічної документації можна знайти окремо для розширення WikibaseLexeme для MediaWiki, яке забезпечує підтримку лексем у Вікіданих.

A Glossary of Wikidata Lexicographical terms is available.

Модель даних

 
Візуалізація моделі даних лексеми

Модель даних WikibaseLexeme описує структуру даних, які обробляються у Вікіданих як "Лексеми". Нижче наведено короткий огляд; для отримання детальнішої інформації див. відповідну сторінку документації WikibaseLexeme.

Лексема (lexeme) — це лексичний елемент мови, такий як слово, словосполучення або префікс. (Більше інформації про лексеми загалом можна знайти у Вікіпедії.) Лексеми, як і елементи та властивості, також є сутностями Вікібази; вони також мають індивідуальні ідентифікатори, і до них можна окремо звертатися та запитувати.

Є сім компонент лексеми, описаних у кожному з наступних підрозділів:

  1. її LID;
  2. її леми;
  3. її мова;
  4. її лексична категорія;
  5. її твердження (найвищого рівня);
  6. її смисли;
  7. її форми.

Ідентифікатор ID лексеми

Лексеми мають ідентифікатори, що починаються з "L" і продовжуються числом з використанням цифр 0-9, наприклад L3746552. Ці ідентифікатори (їх часто позначають "LID", від "lexeme identifiers") є унікальними у Вікіданих і призначаються автоматично під час створення нової лексеми.

RDF URI для лексеми формується як http://www.wikidata.org/entity/, після чого йде ідентифікатор лексеми.

Леми лексеми

Леми (lemmata, в однині lemma) лексеми переважно використовуються як зрозумілі для людини представлення лексеми. Кожна лема складається з рядка, що супроводжується дійсним тегом мови IETF. Зазвичай леми — це письмові форми слова, словосполучення чи афікса, які можна знайти в словнику, що їх описує, незалежно від того, вважаються вони морфологічно «базовою формою» чи «основою».

  • e.g. the English lexeme Lexeme:L3435 has the lemma 'umbrella' because most English dictionaries provide information about this lexeme under the heading 'umbrella' and not under something like 'umbrellas' or "umbrella's" or "umbrellas'".
  • e.g. the Italian lexeme Lexeme:L1196965 has the lemma 'volare' because most Italian dictionaries provide information about it under that heading and not under something like 'volo', 'volante', or 'volato'.
  • e.g. the Korean lexeme Lexeme:L17 has the lemma '먹다' because most Korean dictionaries provide information about it under that form, rather than something like '먹-', '먹어', or even '먹습니다'.

Lexemes can have several lemmata, particularly when there are differences in the writing system or other orthographic conventions within a given language. Different lemmata are indicated with different language tags, and a lexeme may only have one lemma for a given language tag.

  • e.g. the Hindustani lexeme Lexeme:L641622 has two lemmata, 'चाचा' with code hi and 'چاچا' with code ur, which are representations of the same dictionary form (pronounced /t͡ʃɑː.t͡ʃɑː/) in the Devanagari script (used for Hindi) and the Arabic script (used for Urdu).
  • e.g. the Hebrew lexeme Lexeme:L63672 has two lemmata, 'אדום' with code he and 'אָדֹם' with code he-x-Q21283070, which reflect differences in how the same word form is spelt depending on whether diacritics are present.
  • e.g. the Southern Min lexeme Lexeme:L308008 has three lemmata, '城市' with code nan-hani, 'siânn-tshī' with code nan-x-Q56929, and 'siâⁿ-chhī' with code nan-x-Q559173. These represent using either Chinese characters or one of two romanization systems, each corresponding to the same word form.

Note that some of the language codes above contain an '-x-' in them. There are two main reasons this would be present in a language code:

  1. For languages whose language codes are not yet supported, a last-resort option for a language code to use would involve adding a private-use subtag, containing the QID for the Wikidata item for the language, with the mis base code.
  2. If a language has a supported language code, but a variation whose language code is not supported, the private-use subtag may be attached directly to the existing supported code.
    • e.g. lexemes in the Varendri (Q48726757) of Bengali, such as Lexeme:L672268, have a lemma with the code bn-x-Q48726757 (where 'bn' is the existing supported code).
    • e.g. lemmata in Devanagari Sindhi (Q116688933) for lexemes in Sindhi use the language code sd-x-q116688933 (where 'sd' is the existing supported code).
    • e.g. lemmata in the Adlam (Q19606346) for lexemes in Fula use the language code ff-x-q19606346 (where 'ff' is the existing supported code).

Lexeme lemmata are what are displayed when using the {{L}} template to link to a lexeme on Wikidata (including later on this page).

Мова лексеми

Мова, до якої належить лексема, є посиланням на елемент Вікіданих для мови.

Для більшості мов це є простим визначенням: English (Q1860), Thai (Q9217), Manchu (Q33638) і Gun (Q3111668) є лише чотирма можливостями з багатьох, оскільки вони підтримують мовні коди en, th, mnc і guw.

Однак деякі мови почали вимагати використання певних мовних елементів для своїх лексем; див. сторінки документації для цих мов для отримання додаткової інформації.

Лексична категорія

The lexical category to which a lexeme belongs is a reference to a Wikidata item for a particular group of words with specific syntactic behavior in a language. This usually corresponds with the "part of speech" of the lexeme: nouns, verbs, adjectives, adverbs, and so on.

Different languages may necessarily use different lexical categories, but some are frequent enough across languages that a comparison may be made. The following table, when expanded, provides examples of lexemes in each language falling into some of the most common lexical categories across Wikidata lexemes.

Приклади лексем за мовою та лексичною категорією
verb noun pronoun adjective adverb preposition postposition conjunction interjection numeral determiner grammatical particle
Arabic ذهب (L7882) كِتاب (L2233) أنا (L7883) جميل (L7884) عادَة (L7885) فِي (L2452) لَكِنَّ (L7886)) يَعْنِي (L7887) واحِد (L7891) هذا (L7892)
English go (L3006) book (L536) I (L487) beautiful (L3360) usually (L4114) in (L2987) ago (L3240) but (L1387) oh (L4327) one (L327) this (L2994)
German wissen (L2058) Zukunft (L80) ich (L7877) ausgezeichnet (L530) querbeet (L7059) in (L6748) aber (L7879) ach (L7889) eins (L7880) dieser (L7881)
Korean 먹다 (L17) 사람 (L130) (L246) 괴롭다 (L100) 함께 (L168) 가만 (L86) / (L83) 고전적/古典的 (L49)
Spanish ir (L7385) libro (L317) yo (L55951) hermoso (L55952) normalmente (L55953) en (L11741) N/A pero (L55954) oh (L692468) uno (L44969) esto (L55955)
French aller (L750) livre (L6873) je (L9094) beau (L7026) toujours (L9105) dans (L9148) mais (L9261) merci (L11618) un (L9167) ce (L9203)
New Persian رفتن/рафтан/raftan (L2921) کتاب/китоб (L226813) من/ман (L2377) زیبا/зебо (L238420) معمولاً/маъмулан (L749792) در/дар (L230487) اما/аммо (L678620) آخ (L749794) یک/як (L303349) این/ин (L742781)
Russian быть (L2111) вода (L189) я (L2027) хороший (L10951) хорошо (L10948) в/въ (L2109) N/A и (L2108) всё (L2115) три (L32930) N/A не (L2110)
Swedish göra (L38963) boll (L32310) han (L35645) listig (L39404) ofta (L35726) (L35650) - och (L35648) hej (L246342) fem (L46944) den (L47066) ju (L53540)
Punjabi ਸਕਣ/سکݨ (L689075) ਡੱਡੂ/ڈڈّو (L678986) ਉਹ/اوہ (L686605) ਕਾਲਾ/کالا (L684186) ਨਹੀਂ/نہیں (L686542) - ਵਿਚ/وِچ (L679728) ਕਿਉਂਕਿ/کیوں کہ (L686369) ਆਹੋ/آہو (L689404) - ਇਕ/اِک (L686328) ਤਾਂ/تاں (L686341)
Italian amare (L5137) casco (L580895) io (L21271) bizzarro (L1199728) amichevolmente (L1155269) con (L7405) N/A o (L2779) ciao (L313550) otto (L5161)

Твердження лексеми

Lexemes, like items or properties, have statements (claims) that provide information about the lexeme that is not specific to one of its forms or senses. Depending on how a particular language works, and depending on the lexical category of the lexeme, some statements will be more applicable to a given lexeme than others.

Many common properties applicable directly to lexemes are listed in Template:Lexicographical properties.

Смисли лексеми

Senses describe the different meanings of a lexeme.

A sense consists of three parts: 1) the sense ID, 2) glosses, and 3) statements.

  1. The sense ID starts with the ID of the lexeme it belongs to, followed by a hyphen ("-") and an "S", followed by a natural number in decimal notation: e.g. L3746552-S4. These IDs are unique within Wikidata; when a new sense is created within a lexeme, an entirely new sense ID is provided for it. Like an LID, a sense ID may be appended to http://www.wikidata.org/entity/ to form a unique URI for the sense.
  2. Glosses define the meaning of the sense using natural language. For a lexeme in a given language X, the gloss in language X should be a more detailed explanation of the meaning of the sense, while the glosses in other languages Y and Z may be less detailed, so long as they are clear enough to speakers of Y and Z what the meaning of the sense is.
  3. Like lexemes, items, and properties, senses can have statements further describing the sense and its relations to other senses and to Wikidata items.

Many common properties applicable to lexeme senses are listed in Template:Lexicographical properties.

Форми лексеми

Forms describe the different realizations of a lexeme in speech or writing.

Depending on how a language behaves morphologically, there may be exactly one form of a lexeme or there may be multiple forms. In general, the more isolating or analytic or the more agglutinative or polysynthetic a language is, the more it may benefit from having one form per lexeme. Lexemes in many fusional languages typically have multiple forms for particular combinations of grammatical features.

A form consists of four parts: 1) the form ID, 2) form representations, 3) grammatical features, and 4) statements.

  1. The form ID starts with the ID of the lexeme it belongs to, followed by a hyphen ("-") and an "F", followed by a natural number in decimal notation: e.g. L3746552-F4. These IDs are unique within Wikidata; when a new form is created within a lexeme, an entirely new form ID is provided for it. Like an LID or a sense ID, a form ID may be appended to http://www.wikidata.org/entity/ to form a unique URI for the form.
  2. Form representations are strings, accompanied with language tags, that signify how a particular form is used. As with lemmata, there may be multiple representations on a single form to handle differences in writing system or orthographic variation within a language.
  3. Grammatical features are references to Wikidata items that define the syntactic circumstances in which a given form applies.
  4. Like lexemes, senses, items, and properties, forms can have statements further describing the form and its relations to other forms and to Wikidata items.

Many common properties applicable to lexeme forms are listed in Template:Lexicographical properties.

Критерії включення лексеми

In some cases or languages, there may be multiple entities for related words, whereas in other language there may be just one. The below table provides an overview of how nouns in particular may be linked:

One or several lexemes for nouns?
difference in1 lexeme2+ lexemes
senseadd several sensesadd applicable sense to lexemelink other(s) with homograph lexemeduplicate forms on each
etym.add etym. to each senseadd etym. to lexeme baselink other(s) with homograph lexemeduplicate forms on each
genderadd gender to each senseadd gender to lexeme baselink other(s) with homograph lexemeduplicate forms on each
common/properadd several sensesuse lexical category "noun"add applicable sense to lexemelink other(s) with homograph lexemeduplicate forms on each
caps/lowercaseadd several formsqualify forms to applicable sensesadd applicable sense to lexemelink other(s) with homograph lexemeadd only applicable forms
singular/pluraladd several formsqualify forms to applicable sensesadd applicable senseif possible link other(s) with homograph lexemeadd only applicable forms
pronunciationadd the same form twicequalify forms to applicable senses, add prononciationadd applicable senseif possible link other(s) with homograph lexemeadd form and applicable pronunciation
forms/spellingadd several forms or alternate formsqualify forms to applicable sensesadd applicable senseif possible link other(s) with homograph lexemeadd only applicable forms

For a given language and criterion (first column), just one of the two might apply

Інтерфейс

The following section details steps to take in Wikidata's user interface to perform common tasks involving editing lexemes.

Лексеми

 
Скриншот сторінки створення лексеми (вигляд до листопада 2022 року)

Створити нову лексему

  1. Go to Special:NewLexeme.
  2. Under Lemma, enter a lemma (see #Lexeme lemmata for more information).
  3. Under Lexeme's language, enter the language of the lexeme, either by typing the name of the language or its QID (see #Lexeme language for more information).
    1. If you are prompted to do so, under Spelling variant of the Lemma, enter the language code of the lemma (see #Lexeme lemmata for more information).
  4. Under Lexical category, enter the lexical category of the lexeme, either by typing its name or its QID (see #Lexical category for more information).
  5. Click "Create" to save your changes.

You have now created a lexeme with the most basic information. Because it is very empty, it cannot meaningfully be used until more information is added to it, such as statements, senses, and forms (for which see later in this page).

Редагувати леми, мову або лексичну категорію лексеми

 
Screenshot of the top of a Lexeme page
  1. Next to the lemmata, click the 'edit' button.
  2. Lemmata may be edited as follows:
    1. To add a lemma, first select the "+" that appears beside the lemmata.
    2. In the new lemma, under Lemma, add the representation of the new lemma.
    3. Also in the new lemma, under Spelling variant, add the language code of the new lemma.
    4. To remove a particular lemma, simply select the "x" appearing beside Lemma in that lemma.
  3. To change the language of the lexeme, use the search box appearing beside Language to pick an item for a language.
  4. To change the lexical category of the lexeme, use the search box appearing beside Lexical category to pick an item for a lexical category.
  5. Click "publish" to save your changes.

Додати, редагувати або видалити твердження лексеми

 
Скриншот інтерфейсу для редагування твердження

Adding a statement to a lexeme entails the following steps:

  1. Click "add statement"
  2. Enter a property, typing its name in the property field (such as derived from lexeme) and selecting it in the suggester.
  3. Enter a value for the property.
    Примітка: Wikidata property for lexicographic senses (Q54275340), такі як translation (P5972) або synonym (P5973), наразі не підтримують пошуку смислів за допомогою лем лексем чи глос смислів. Це означає, що для введення значення твердження вам треба ввести точний ідентифікатор ID смислу для смислу, який ви хочете ввести як значення.
     
    Як видно тут, Вікідані не можуть знайти лексеми та їхні смисли під час пошуку за їхньою назвою.

     
    Проте пошук за точним ідентифікатором смислу лексеми повертає наглядний результат.
  4. Якщо ви хочете додати кваліфікатори та посилання до твердження, не соромтеся це робити.
  5. Save the statement by clicking "publish".
  6. To edit a statement, click "edit".
  7. To delete a statement, click "edit", then click "remove".

Видалити лексему

To delete a lexeme, you may request its deletion at Wikidata:Requests for deletions, just as is done with items. If you have the Merge gadget enabled, you may submit deletion requests for lexemes using it.

Пошук лексеми

To look for lexemes via Special:Search or the search box on any page, you may use its LID, one of its lemmata, or a representation of one of its forms.

The simplest way to do this is to prefix "L:" to one of these, and you will automatically see results in the lexeme namespace for your search. For example, lexeme L301993 has the lemma "হৃদয়" and one of its forms has the representation "হৃদয়েতে". Searching for "L:L301993", "L:হৃদয়", or "L:হৃদয়েতে" will return the same lexeme in the results.

You may alternatively search without the "L:" prefix (e.g. using "L301993", "হৃদয়", or "হৃদয়েতে"), then select the "Lexeme" namespace in the Search in: and rerun the search to get the same lexeme returned.

Note that the selector (the drop-down menu that pops up to suggest results) does not support the lexeme namespace yet. Pressing Enter or clicking the search icon after typing your keyword, however, will show you the results.

Смисли

Створити новий смисл

  1. In the Senses section of a lexeme, click "add Sense".
  2. Under Language, enter a language code for the gloss.
  3. Under Gloss, enter the gloss.
  4. To add new glosses, click "add" and repeat steps 2 and 3.
  5. Click "publish" to save your changes.

Редагувати глоси смислів

  1. Next to the sense glosses, click "edit".
  2. To add a new gloss, do the following:
    1. Underneath the existing sense glosses, click the smaller "add" link. (Be careful that you do not accidentally click on the add statement or add Sense links used to add a new statement or sense instead!)
    2. Under Language, enter a language code for the new gloss.
    3. Under Gloss, enter the new gloss.
    4. Repeat these steps for each new gloss you wish to add.
  3. To remove a gloss, click "remove" next to the gloss.
  4. Click "publish" to save your changes.


Видалити смисл

  1. Next to the sense glosses, click "edit".
  2. Click "remove".

Форми

 
додавання форми

Створити нову форму

  1. In the Forms section of a lexeme, click "add Form".
  2. Under Representation, fill in a representation for the new form.
  3. Under Spelling variant, fill in the language code for that representation.
  4. To add more representations, click the "+" next to the existing representations and repeat steps 2 and 3 for the new representation.
  5. Next to Grammatical features, enter one or several grammatical features, by typing their name and selecting them in the list of items that appears.
  6. Click "publish" to save your changes.

Редагувати репрезентації або граматичні ознаки форми

  1. Next to the form's representations, click "edit".
  2. Representations may be edited as follows:
    1. To add a representation, first select the "+" that appears beside the representations.
    2. In the new representation, under Representation, add the new representation for the form.
    3. Also in the new representation, under Spelling variant, add the language code for that representation.
    4. To remove a particular representation, simply select the "x" appearing beside Representation in that representation.
  3. To add a grammatical feature, type its name at the end of the text box and select the appropriate item in the list of items that appears.
  4. To remove a grammatical feature, click the "x" that appears next to it.
  5. Click "publish" to save your changes.

Видалити форму

  1. Next to the form's representations, click "edit".
  2. Click "remove".

Характеристики

Див. також: Вікідані:Лексикографічні дані/Розробка

Що входить у першу версію

  • New datatypes: Lexeme, Form
  • Add, edit, delete Lexemes
  • Add, edit, delete Forms
  • Add, edit, delete statements
  • Add, edit, delete qualifiers
  • Add, edit, delete references
  • Linking to an Item from a Lexeme or a Form
  • Linking to another Lexeme from a Lexeme, a Form or an Item
  • Search and suggestions when entering a value
  • Basic internal APIs (used for UI, you should not use them)

Що буде додане в майбутньому

Ordered from near to long-term plans

  • Search for content with Special:Search   Done
  • Display the lemma in the history pages, recent changes and watchlist   Done
  • Add, edit, delete Senses   Done
  • RDF support and ability to query the data on query.wikidata.org   Done
  • Better API support
  • Automatic generation of Forms
  • Data access on clients (other Wikimedia projects)   Done
  • Editing data directly from Wiktionary

Див. також