Wikidata:語彙データ/解説
ここでは、ウィキデータの語彙データについて解説します。ウィキデータの語彙素に関する一般的な情報を説明することを目的としています。すなわち、それらがどのように構成されているか、どのように編集できるか、そして豊かにするために何を追加したら良いかです。
このページの情報はほとんどの言語に広く適用できますが、「ある言語のモデリングに有効なものが、別の言語のモデリングにも常に有効であるとは限らない」ことに注意してください。 特定の言語用の語彙素のモデリングについては、それぞれの言語の解説ページを参照してください。
WikibaseLexeme拡張機能の技術文書もご覧ください。ウィキデータの語彙素についてサポートしています。
A Glossary of Wikidata Lexicographical terms is available.
データモデル
「WikibaseLexemeのデータモデル」は、ウィキデータで「語彙素(Lexeme)」として扱われるデータの構造を記述します。このページでは概略を示します。詳細は、対応するWikibaseLexeme文書ページをご覧ください。
語彙素とは、語、句、接頭辞といった、ある言語の語彙要素です(語彙素全般に関する詳細については、ウィキペディアの語彙素の解説を参照)。 語彙素は、項目やプロパティと同様に、ウィキベースのエンティティでもあり、それらもまた個々の識別子を持ち、個別にアクセスしたり照会したりすることができます。
語彙素には7つの構成要素があり、次の各サブセクションで説明します:
- そのLID;
- その見出し語;
- その言語;
- その語彙範疇;
- その(トップレベルの)文;
- その語義; 及び
- その語形。
語彙素ID
語彙素には、L3746552
のように、「L」で始まり、0~9の数字が続く識別子があります。これらのID(「lexemeid識別子」を意味する「LID」と呼ばれることがよくあります)は、ウィキデータ内で一意であり、語彙素が作成されると自動的に割り当てられます。
語彙素のRDF URIはhttp://www.wikidata.org/entity/
で、その後に語彙素IDが続きます。
語彙素の見出し語
語彙素の見出し語(lemmata)(単数形lemma)は、主に語彙素の人間が読める表現として使用されます。各見出し語は、有効なIETF言語タグを伴う文字列で構成されています。通常、見出し語は、単語、句、または接辞の文字で書かれた形式であり、それらが形態学的に「語基」や「語幹」の形と考えられるかどうかにかかわらず、それらを記述する辞書に見られます。
- 例えば、英語の語彙素Lexeme:L3435には「umbrella」という見出し語があります。なぜなら、ほとんどの英語辞書は、この語彙素に関する情報を「umbrella」という見出しの下に提供しており、「umbrellas」や「umbrella's」や「umbrellas'」のようなものの下には提供していないからです。
- 例えば、イタリア語の語彙素Lexeme:L1196965には「volare」という見出し語があります。これは、ほとんどのイタリア語辞書が、「volo」、「volante」、「volato」などではなく、この見出しの下に情報を提供しているためです。
- 例えば、韓国語の語彙素Lexeme:L17には、「먹다」という見出し語があります。なぜなら、ほとんどの韓国語辞書は、「먹-」、「먹어」、さらには「먹습니다」のようなものではなく、この形式で情報を提供しているからです。
語彙素はいくつかの見出し語を持つことができます。特に、与えられた言語内で文字体系や他の正書法の規則に違いがある場合にはそうです。異なる見出し語は異なる言語タグで示され、語彙素は与えられた言語タグに対して1つの見出し語しか持てません。
- e.g. the Hindustani lexeme Lexeme:L641622 has two lemmata, 'चाचा' with code
hi
and 'چاچا' with codeur
, which are representations of the same dictionary form (pronounced /t͡ʃɑː.t͡ʃɑː/) in the Devanagari script (used for Hindi) and the Arabic script (used for Urdu). - e.g. the Hebrew lexeme Lexeme:L63672 has two lemmata, 'אדום' with code
he
and 'אָדֹם' with codehe-x-Q21283070
, which reflect differences in how the same word form is spelt depending on whether diacritics are present. - e.g. the Southern Min lexeme Lexeme:L308008 has three lemmata, '城市' with code
nan-hani
, 'siânn-tshī' with codenan-x-Q56929
, and 'siâⁿ-chhī' with codenan-x-Q559173
. These represent using either Chinese characters or one of two romanization systems, each corresponding to the same word form.
上記の言語コードのいくつかには'-x-'が含まれていることに注意してください。これが言語コードに存在する主な理由は2つあります:
- 言語コードがまだサポートされていない言語の場合、使用する言語コードの最後の手段は、
mis
ベースコードと共に、その言語のウィキデータ項目のQIDを含む私用のサブタグを追加することです。- 例えば、Polabian (Q36741)において、Lexeme:L1089491などは、
mis-x-Q36741
というコードの見出しを持っています。 - e.g. lexemes in Soyot (Q4426878), such as Lexeme:L1015954, have a lemma with the code
mis-x-Q4426878
. - e.g. lexemes in Láadan (Q35757), such as Lexeme:L623039, have a lemma with the code
mis-x-Q35757
.
- 例えば、Polabian (Q36741)において、Lexeme:L1089491などは、
- ある言語をサポートする言語コードがあっても、その言語コードがサポートされていないバリエーションがある場合、私用サブタグは既存のサポートされているコードに直接付加できます。
- 例えば、ベンガル語のVarendri (Q48726757)において、Lexeme:L672268などは、
bn-x-Q48726757
(「bn」は既存のサポートされているコード)コードの見出し語を持っています。 - e.g. lemmata in Devanagari Sindhi (Q116688933) for lexemes in Sindhi use the language code
sd-x-q116688933
(where 'sd' is the existing supported code). - e.g. lemmata in the Adlam (Q19606346) for lexemes in Fula use the language code
ff-x-q19606346
(where 'ff' is the existing supported code).
- 例えば、ベンガル語のVarendri (Q48726757)において、Lexeme:L672268などは、
語彙素の見出し語は、{{L}}
テンプレートを使用してウィキデータ上の語彙素にリンクするときに表示されるものです(このページの後半を含む)。
語彙素の言語
語彙素が属する言語は、その言語のウィキデータ項目への参照です。
ほとんどの言語では、これは簡単に判断できます。English (Q1860)、Thai (Q9217)、Manchu (Q33638)、およびGun (Q3111668)は、多くの可能性のうちの4つにすぎません。なぜなら、それらには言語コードen
、th
、mnc
、およびguw
というサポート言語があるからです。
Some languages, however, have begun to require for their lexemes that particular language items be used; see the documentation pages for those languages for more information.
語彙範疇
語彙素が属する語彙カテゴリは、言語における特定の構文的挙動を有する単語の特定のグループのためのウィキデータ項目への参照です。これは通常、名詞、動詞、形容詞、副詞などの語彙素の「品詞の一部」に対応しています。
異なる言語は必然的に異なる語彙範疇を使用するかもしれませんが、いくつかは言語間で比較が行われるのに十分な頻度です。次の表は、展開されたときに、ウィキデータの語彙素全体で最も一般的な語彙範疇のいくつかに分類される各言語の語彙素の例を提供しています。
語彙素の文
語彙素は、項目やプロパティと同様に、その形式や意味の1つに固有ではない語彙素に関する情報を提供する文(主張)を持っています。特定の言語がどのように機能するか、および語彙素の語彙範疇に応じて、いくつかの文は他の文よりも特定の語彙素に適しています。
Template:Lexicographical propertiesには、語彙素に直接適用できる多くの共通プロパティがリストされています。
語彙素の語義
語義は語彙素の様々な意味を記述します。
語義は三つの部分から構成されています:1) 語義ID, 2) 注釈、および 3) 文。
- 語義IDは、それが属する語彙素のIDで始まり、ハイフン(「-」)と「S」が続き、その後に10進表記の自然数が続きます。たとえば、
L3746552-S4
のようになります。これらのIDはウィキデータ内で一意です。語彙素内で新しい語義が作成されると、まったく新しい語義IDが提供されます。LIDと同様に、語義IDをhttp://www.wikidata.org/entity/
に追加して、語義の一意のURIを形成できます。 - 注釈は、自然言語を使用して語義の意味を定義します。特定の言語Xの語彙素では、言語Xの注釈は語義の意味をより詳細に説明する必要があります。一方、他の言語YおよびZの注釈は、YおよびZの話者に意味が何であるかが十分に明確である限り、あまり詳細でなくても構いません。
- 語彙素、項目、およびプロパティと同様に、語義は、語義と他の語義やウィキデータ項目との関係をさらに記述する文を持つことができます。
Template:Lexicographical propertiesには、語彙素の語義に直接適用できる多くの共通プロパティがリストされています。
語彙素の語形
語形は、音声または文章における語彙素のさまざまな実形態を記述します。
言語が形態学的にどのように振る舞うかによって、語彙素には正確に1つの形式がある場合もあれば、複数の形式がある場合もあります。一般的に、言語は孤立的あるいは分析的であるほど、または凝集性あるいは多合成性が高いほど、語彙素ごとに1つの形式を持つことでより多くの利益を得ることができます。多くの融合言語の語彙素は、通常、文法的特徴の特定の組み合わせに対して複数の形式を持っています。
語形は4つの部分で構成されています: 1) 語形ID、2) 表現、3) 文法的特長、4) 文。
- 語形IDは、それが属する語彙素のIDで始まり、ハイフン(「-」)と「F」が続き、その後に10進表記の自然数が続きます。例:
L3746552-F4
。これらのIDはウィキデータ内で一意です。語彙素内で新しい語形が作成されると、完全に新しい語形IDが提供されます。LIDや語義IDと同様に、語形IDをhttp://www.wikidata.org/entity/
に追加して、語形の一意のURIを形成できます。 - 表現は、言語タグを伴う文字列で、特定のフォームがどのように使用されるかを示します。見出し語と同様に、1つの語形に複数の表現があり、言語内の表記体系の違いや正書法のバリエーションを処理できます。
- 文法的特長は、与えられた語形が適用される構文的状況を定義するウィキデータ項目への参照です。
- 語彙素、語義、項目、およびプロパティと同様に、語形は、語形と他の語形およびウィキデータ項目との関係をさらに記述する文を持つことができます。
Template:Lexicographical propertiesには、語彙素の語形に直接適用できる多くの共通プロパティがリストされています。
語彙素の収容基準
いくつかのケースや言語では、関連する単語に対して複数のエンティティが存在する場合がありますが、他の言語では1つしか存在しない場合があります。次の表は、特定の名詞がどのようにリンクされるかの概要を示しています:
difference in | 1 lexeme | 2+ lexemes | |||
---|---|---|---|---|---|
sense | add several senses | add applicable sense to lexeme | link other(s) with homograph lexeme | duplicate forms on each | |
etym. | add etym. to each sense | add etym. to lexeme base | link other(s) with homograph lexeme | duplicate forms on each | |
gender | add gender to each sense | add gender to lexeme base | link other(s) with homograph lexeme | duplicate forms on each | |
common/proper | add several senses | use lexical category "noun" | add applicable sense to lexeme | link other(s) with homograph lexeme | duplicate forms on each |
caps/lowercase | add several forms | qualify forms to applicable senses | add applicable sense to lexeme | link other(s) with homograph lexeme | add only applicable forms |
singular/plural | add several forms | qualify forms to applicable senses | add applicable sense | if possible link other(s) with homograph lexeme | add only applicable forms |
pronunciation | add the same form twice | qualify forms to applicable senses, add prononciation | add applicable sense | if possible link other(s) with homograph lexeme | add form and applicable pronunciation |
forms/spelling | add several forms or alternate forms | qualify forms to applicable senses | add applicable sense | if possible link other(s) with homograph lexeme | add only applicable forms |
For a given language and criterion (first column), just one of the two might apply
インターフェイス
次のセクションでは、語彙素の編集を含む一般的なタスクを実行するためにウィキデータのユーザー・インターフェースで実行するステップについて詳しく説明します。
語彙素
語彙素の新規作成
- Special:NewLexeme を開きます。
- Lemmaの下に、見出し語を入力します(詳細については、#Lexeme lemmataを参照してください)。
- Lexeme's languageの下に、言語の名前またはQIDを入力して、語彙素の言語を入力します(詳細については、#Lexeme languageを参照してください)。
- プロンプトが表示されたら、Spelling variant of the Lemmaの下に見出し語の言語コードを入力します(詳細については、#Lexeme lemmataを参照してください)。
- Lexical categoryの下に、名前またはQIDを入力して、語彙素の語彙範疇を入力します(詳細については、#Lexical categoryを参照してください)。
- 「Create」をクリックして変更内容を保存します。
これで、最も基本的な情報を含む語彙素が作成されました。まだわずかしか登録されていないため、文、語義、語形(このページの後半を参照)などの情報が追加されるまで有意義な利用はできません。
語彙素の見出し語、言語、語彙範疇の編集
- Next to the lemmata, click the 'edit' button.
- Lemmata may be edited as follows:
- To add a lemma, first select the "+" that appears beside the lemmata.
- In the new lemma, under Lemma, add the representation of the new lemma.
- Also in the new lemma, under Spelling variant, add the language code of the new lemma.
- To remove a particular lemma, simply select the "x" appearing beside Lemma in that lemma.
- To change the language of the lexeme, use the search box appearing beside Language to pick an item for a language.
- To change the lexical category of the lexeme, use the search box appearing beside Lexical category to pick an item for a lexical category.
- Click "publish" to save your changes.
語彙素の文の追加、編集、削除
語彙素に文を追加するには、次の手順を実行します:
- 「add statement」をクリックします
- プロパティの入力、プロパティ欄にその名前(
derived from lexeme
など)を入力し、提案された候補から選択します。 - プロパティの値を入力します。
注:translation (P5972)やsynonym (P5973)などのWikidata property for lexicographic senses (Q54275340)は、現在、語彙素の見出し語や語義の注釈による語義の検索をサポートしていません。つまり、文に値を入力するには、値として必要な語義の正確な語義IDを入力する必要があります。 - 文に修飾子と情報源を追加する場合は、自由に追加してください。
- 「publish」をクリックして文を保存します。
- 文を編集するには「edit」をクリックします。
- 文を削除するには「edit」をクリックしてから「remove」をクリックします.
語彙素の削除
語彙素を削除するには、項目で行うのと同じように、Wikidata:Requests for deletionsで削除を要求できます。the Merge gadgetを有効にしている場合は、それを使用して語彙素の削除要求を送信できます。
語彙素の検索
Special:Searchや任意のページの検索ボックスで語彙素を検索するには、そのLID、見出し語の1つ、またはその語形の1つの表現を使用できます。
これを行う最も簡単な方法は、これらのいずれかに接頭辞「L:」を付けることです。これにより、検索の語彙素ネームスペースに自動的に結果が表示されます。たとえば、語彙素L301993には「হৃদয়」という見出し語があり、その形式の1つには「হৃদয়েতে」という表現があります。「L:L301993」、「L:হৃদয়」、または「L:হৃদয়েতে」を検索すると、結果に同じ語彙素が返されます。
または、接頭辞「L:」を付けずに(たとえば、「L301993」、「হৃদয়」、または「হৃদয়েতে」を使用して)検索し、Search in:の「Lexeme」名前空間を選択して検索を再実行して、同じ語彙素を取得することもできます。
セレクタ(結果を提案するためにポップアップするドロップダウンメニュー)は、まだlexeme名前空間をサポートしていないことに注意してください。ただし、キーワードを入力した後にEnterキーを押すか、検索アイコンをクリックすると、結果が表示されます。
語義
語義の新規作成
- 語彙素の語義セクションで、「add Sense」をクリックします。
- Languageの下で、注釈の言語コードを入力します。
- Glossの下で、注釈を入力します。
- 新しい注釈を追加するには、「add」をクリックして手順2と3を繰り返します。
- 「publish」をクリックして変更内容を保存します。
語義の注釈の編集
- Next to the sense glosses, click "edit".
- To add a new gloss, do the following:
- Underneath the existing sense glosses, click the smaller "add" link. (Be careful that you do not accidentally click on the add statement or add Sense links used to add a new statement or sense instead!)
- Under Language, enter a language code for the new gloss.
- Under Gloss, enter the new gloss.
- Repeat these steps for each new gloss you wish to add.
- To remove a gloss, click "remove" next to the gloss.
- Click "publish" to save your changes.
語義の除去
- 語義の注釈の横にある「edit」をクリックします。
- 「remove」をクリックします。
語形
語形の新規作成
- 語彙素の語形セクションで、「add Form」をクリックします。
- Representationの下に、新しい語形の表現を入力します。
- Spelling variantの下で、その表現の言語コードを入力します。
- さらに表現を追加するには、既存のリプレゼンテーションの横にあるプラス記号(+)をクリックし、新しい表現に対して手順2と3を繰り返します。
- Grammatical featuresの横に、1つまたは複数の文法上の特長を入力します。名前を入力し、表示される項目のリストから選択します。
- 「publish」をクリックして変更内容を保存します。
語形の表現や文法的特長の編集
- Next to the form's representations, click "edit".
- Representations may be edited as follows:
- To add a representation, first select the "+" that appears beside the representations.
- In the new representation, under Representation, add the new representation for the form.
- Also in the new representation, under Spelling variant, add the language code for that representation.
- To remove a particular representation, simply select the "x" appearing beside Representation in that representation.
- To add a grammatical feature, type its name at the end of the text box and select the appropriate item in the list of items that appears.
- To remove a grammatical feature, click the "x" that appears next to it.
- Click "publish" to save your changes.
語形の削除
- 語形の表現の横にある「edit」をクリックします。
- 「remove」をクリックします。
機能
Wikidata:Lexicographical data/Developmentも参照
最初のバージョンでの機能
- New datatypes: Lexeme, Form
- Add, edit, delete Lexemes
- Add, edit, delete Forms
- Add, edit, delete statements
- Add, edit, delete qualifiers
- Add, edit, delete references
- Linking to an Item from a Lexeme or a Form
- Linking to another Lexeme from a Lexeme, a Form or an Item
- Search and suggestions when entering a value
- Basic internal APIs (used for UI, you should not use them)
追加予定の機能
短期・長期計画からのオーダー
- Special:Search でのコンテンツ検索 Done
- 履歴ページ、最近の変更。監視リストで見出し語を表示 Done
- Add, edit, delete Senses Done
- RDF support and ability to query the data on query.wikidata.org Done
- Better API support
- Automatic generation of Forms
- Data access on clients (other Wikimedia projects) Done
- Editing data directly from Wiktionary