UD Latvian Cairo
Language: Latvian (code: lv
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.14 release.
The following people have contributed to making this treebank part of UD: Lauma Pretkalniņa, Laura Rituma, Baiba Saulīte, Gunta Nešpore-Bērzkalne.
Repository: UD_Latvian-Cairo
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: grammar-examples
Questions, comments? General annotation questions (either Latvian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [lauma (æt) ailab • lv]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
This is an example treebank made to ilustrate UD annotation choices made for Latvian based on the Cairo sample sentences. Created by AI Lab at Institute of Mathematics and Computer Science, University of Latvia.
This treebank is developed together with the main Latvian UD Treebank (UD_Latvian-LVTB) by the same team with the same workflow and convertion tools. It contains the 20 Cairo example sentences and is meant to be a quick reference on how various syntactic constructions of Latvian are annotated in UD. For more information on Latvian UD Treebank, see the documentation of UD_Latvian-LVTB or the original LVTB treebank.
Acknowledgments
This work was supported by the State Research Programme’s project Research on Modern Latvian Language and Development of Language Technology under the grant agreement No. VPP-LETONIKA-2021/1-0006.
References
- Pretkalniņa L., Rituma L., Saulīte B. Deriving enhanced Universal Dependencies from a hybrid dependency-constituency treebank. Proceedings of the 21sh International Conference Text, Speech, and Dialogue, LNCS, Vol. 11107, Springer Link, 2018, pp. 95-105
Statistics of UD Latvian Cairo
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
Aspect – Case – Definite – Degree – Evident – Gender – Mood – Number – Person – Polarity – Poss – PronType – Reflex – Tense – VerbForm – Voice
Relations
acl – advcl – advmod – advmod:emph – advmod:neg – amod – appos – aux:pass – case – cc – ccomp – conj – cop – csubj – det – discourse – flat:name – iobj – mark – nmod – nsubj – obj – obl – orphan – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 20 sentences and 168 tokens.
- This corpus contains 31 tokens (18%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
Morphology
Tags
- This corpus uses 13 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: NUM, INTJ, SYM, X
- This corpus contains 4 word types tagged as particles (PART): Vai, kaut, ne, tikai
- This corpus contains 5 lemmas tagged as pronouns (PRON): es, kas, tu, viņa, viņš
- This corpus contains 8 lemmas tagged as determiners (DET): kurš, kāds, mans, sava, savs, tas, tavējs, šī
- This corpus contains 2 lemmas tagged as auxiliaries (AUX): būt, tikt
- Out of the above, 2 lemmas occurred sometimes as AUX and sometimes as VERB: būt, tikt
- There are 3 (de)verbal forms:
- Fin
- AUX: ir, tika
- VERB: uzrakstīja, Nevarēja, apskāvās, atstāja, atver, centās, domā, gribi, ieguva, lika
- Inf
- VERB: apgriezt, atmest, atnākt, iet, izvēlēties, nomazgāt, tikt
- Part
- VERB: piegādāta
Nominal Features
- Fem
- ADJ: liela, maza, sarkanā
- DET: savai, Šī
- NOUN: mašīnu, Meitene, bronzu, draudzenei, dzeršanu, galvaspilsētā, istabu, jausmas, krāsā, smēķēšanu
- PRON: viņa, Viņai
- PROPN: Marija, Braunu, Džeina, Francijas, Mariju, Parīzē
- VERB-Part: piegādāta
- Masc
- ADJ: foršāks
- DET: to, Mans, kurš, kāda, savam, tavējais
- NOUN: brālis, iemesla, kaimiņi, lietus, logu, matus, sudrabu, tētis, velosipēdu, vīram
- PRON: viņš, Viņiem, viņa, viņam
- PROPN: Pētera, Pēteris, Pēteri, Sem, Smitu
- Coll
- NOUN: zeltu
- Plur
- NOUN: kaimiņi, matus
- PRON: Viņiem
- Sing
- ADJ: foršāks, liela, maza, sarkanā
- DET: to, Mans, kurš, kāda, savai, savam, tavējais, Šī
- NOUN: mašīnu, Meitene, bronzu, brālis, draudzenei, dzeršanu, galvaspilsētā, iemesla, istabu, jausmas
- PRON: tu, viņa, viņš, Es, Man, Viņai, viņam
- PROPN: Marija, Pētera, Pēteris, Braunu, Džeina, Francijas, Mariju, Parīzē, Pēteri, Sem
- VERB-Fin: atver, domā, gribi, nevarēju, skaties, varēsi
- VERB-Part: piegādāta
- Acc
- DET: to
- NOUN: mašīnu, bronzu, dzeršanu, istabu, logu, matus, smēķēšanu, sudrabu, velosipēdu, vēstuli
- PRON: ko
- PROPN: Braunu, Mariju, Pēteri, Smitu
- Dat
- DET: savai, savam
- NOUN: draudzenei, vīram
- PRON: Man, Viņai, Viņiem, viņam
- Gen
- DET: kāda
- NOUN: iemesla, jausmas
- PRON: viņa
- PROPN: Pētera, Francijas
- Loc
- ADJ: sarkanā
- NOUN: galvaspilsētā, krāsā
- PROPN: Parīzē
- Nom
- ADJ: foršāks, liela, maza
- DET: Mans, kurš, tavējais, Šī
- NOUN: Meitene, brālis, kaimiņi, lietus, tētis, valsts, vēstule
- PRON: tu, viņa, viņš, Es
- PROPN: Marija, Pēteris, Džeina
- VERB-Part: piegādāta
- Voc
- PROPN: Sem
- Def
- DET: tavējais
- Ind
- ADJ: foršāks, liela, maza, sarkanā
- VERB-Part: piegādāta
Degree and Polarity
- Cmp
- ADJ: foršāks
- Pos
- ADJ: liela, maza, sarkanā
- ADV: ātri
- DET: tavējais
- VERB-Part: piegādāta
- Neg
- CCONJ: ne
- PART: ne
- VERB-Fin: Nevarēja, nav, neizdarīja, nevarēju
- Pos
- AUX-Fin: ir, tika
- VERB-Fin: uzrakstīja, apskāvās, atstāja, atver, centās, domā, gribi, ieguva, lika, līst
- VERB-Inf: apgriezt, atmest, atnākt, iet, izvēlēties, nomazgāt, tikt
- VERB-Part: piegādāta
Verbal Features
- Perf
- VERB-Part: piegādāta
- Imp
- VERB-Fin: atver
- Ind
- AUX-Fin: ir, tika
- VERB-Fin: uzrakstīja, Nevarēja, apskāvās, atstāja, centās, domā, gribi, ieguva, lika, līst
- Fut
- VERB-Fin: varēsi
- Past
- AUX-Fin: tika
- VERB-Fin: uzrakstīja, Nevarēja, apskāvās, atstāja, centās, ieguva, lika, neizdarīja, nevarēju, nokrāsoja
- VERB-Part: piegādāta
- Pres
- AUX-Fin: ir
- VERB-Fin: domā, gribi, līst, nav, skaties, šķiet
- Act
- AUX-Fin: ir, tika
- VERB-Fin: uzrakstīja, Nevarēja, apskāvās, atstāja, atver, centās, domā, gribi, ieguva, lika
- Pass
- VERB-Part: piegādāta
- Fh
- AUX-Fin: ir, tika
- VERB-Fin: uzrakstīja, Nevarēja, apskāvās, atstāja, centās, domā, gribi, ieguva, lika, līst
Pronouns, Determiners, Quantifiers
- Dem
- ADV: tad
- DET: to, Šī
- Ind
- DET: kāda
- Int
- ADV: Kā, kad
- PRON: ko
- Prs
- DET: Mans, savai, savam
- PRON: tu, viņa, viņš, Es, Man, Viņai, Viņiem, viņam
- Rel
- DET: kurš
- Yes
- DET: Mans, savai, savam
- Yes
- VERB-Fin: apskāvās, centās, skaties
- VERB-Inf: izvēlēties
- 1
- PRON: Es, Man
- VERB-Fin: nevarēju
- 2
- PRON: tu
- VERB-Fin: atver, domā, gribi, skaties, varēsi
- 3
- AUX-Fin: ir, tika
- DET: to, Šī
- PRON: viņa, viņš, Viņai, Viņiem, viņam
- VERB-Fin: uzrakstīja, Nevarēja, apskāvās, atstāja, centās, ieguva, lika, līst, nav, neizdarīja
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: būt.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: tikt.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN-Gen (1)
- VERB-Fin--NOUN-Nom (3)
- VERB-Fin--PRON-Nom (11)
- obj
- VERB-Fin--NOUN-Acc (6)
- VERB-Inf--NOUN-Acc (3)
- iobj
- VERB-Fin--NOUN-Dat (2)
Relations Overview
- This corpus uses 4 relation subtypes: advmod:emph, advmod:neg, aux:pass, flat:name
- The following 2 main types are not used alone, they are always subtyped: aux, flat
- The following 11 relation types are not used in this corpus at all: expl, dislocated, nummod, clf, fixed, compound, list, parataxis, goeswith, reparandum, dep