Kashubian UD via Polish
Basic first steps
CSB_EXAMPLES = {
"bëc": ": (1.1) ''[[jô|Jô]] '''[[bëc|jem]]''' [[doma]].'' → ([[ja|Ja]]) '''[[być|jestem]]''' [[w]] [[dom]]u.",
"më": ": (1.1) ''[[më|Më]] [[bëc|jesmë]] [[Kaszëba]]ma.'' → ('''[[my|My]]''') [[być|jesteśmy]] [[Kaszub]]ami.",
"ma": ": (1.1) ''[[ma|Ma]] [[bëc|jesma]] [[Kaszëba]]ma.'' → '''[[my|My]]''' [[być|jesteśmy]] [[Kaszub]]ami.",
"akùratno": ": (1.1) ''[[pò|Pò]] [[co|czim]] [[pòznac]], [[że]] [[akùratno]] [[ten|ta]] [[żnija]] [[bëc|je]] [[jadowiti|jadowitô]]?'' → [[po|Po]] [[co|czym]] [[poznać]], [[że]] '''[[akurat]]''' [[ta]] [[żmija]] [[być|jest]] [[jadowity|jadowita]]?",
"abò": ": (1.1) ''[[abò|Abò]] [[biôłi|biôło]], [[abò]] [[czôrny|czôrno]].'' → '''[[albo|Albo]]''' [[biały|biało]], '''[[albo]]''' [[czarny|czarno]].",
"abstrakcëjô": ": (1.1) ''[[nen|Nen]] [[òbrôzk]] [[to]] [[przëmiôr]] [[czësti]] [[abstrakcëjô|abstrakcëji]].'' → [[ten|Ten]] [[obraz]] [[to]] [[przykład]] [[czysty|czystej]] '''[[abstrakcja|abstrakcji]]'''.",
"adresa": ": (1.1) ''[[wësłac|Wësłac]] [[lëst]] [[na]] [[domôcy|domôcą]] [[adresa|adrësã]].'' → [[wysłać|Wysłać]] [[list]] [[na]] '''[[adres]]''' [[domowy]].",
"agitowac": ": (1.1) ''[[a|A]] [[co]] [[òn]] [[agitowac|agitëje]]?'' → [[a|A]] [[co]] [[on]] '''[[agitować|agituje]]'''?",
"ani": ": (1.1) ''[[ni|Ni]] [[miec|móm]] [[ani]] [[dëtk]]a.'' → [[nie|Nie]] [[mieć|mam]] '''[[ani]]''' [[grosz]]a.",
"apfelzynowi": ": (1.1) ''[[apfelzynowi|Apfelzynowô]] [[farwa]].'' → '''[[pomarańczowy|Pomarańczowy]]''' [[kolor]].",
"arbata": ": (1.1) ''[[to|To]] [[bëc|je]] [[dëcht]] [[smaczny|smacznô]] [[arbata]].'' → [[to|To]] [[być|jest]] [[całkiem]] [[smaczny|smaczna]] '''[[herbata]]'''.",
}
DSB_EXAMPLES = {
"a": ": (1.1) ''[[wjacork|Wjacork]] [[serbski|serbskeje]] [[literatura|literatury]], [[muzika|muziki]] [[a]] [[źiwadło|źiwadła]] [[w]] [[Praga|Praze]].'' → [[wieczorek|Wieczorek]] [[łużycki]]ej [[literatura|literatury]], [[muzyka|muzyki]] '''[[i]]''' [[teatr]]u [[w]] [[Praga|Pradze]].",
"abo": ": (1.1) ''[[molekul|Molekul]] [[byś|jo]] [[źěl]], [[kótaryž]] [[wobstojaś|wobstoj]] [[z]] [[dwě|dweju]] [[abo]] [[wjele|wěcej]] [[atom]]ow [[zwězaś|zwězanych]] [[pśez]] [[kowalentny|kowalentnu]] [[wězba|wězbu]]''. → [[molekuła|Molekuła]] [[być|jest]] [[cząstka|cząstką]], [[który|która]] [[składać się|składa się]] [[z]] [[dwa|dwóch]] '''[[albo]]''' [[wiele|więcej]] [[atom]]ów [[związać|związanych]] [[przez]] [[wiązanie]] [[kowalencyjny|kowalencyjne]].",
"adwent": ": (1.1) ''[[adwent|Adwent]] [[byś|jo]] [[cas]] [[pśigótowanje|pśigótowanja]] [[na]] [[gódy]].'' → '''[[adwent|Adwent]]''' [[być|jest]] [[czas]]em [[przygotować|przygotowania]] [[na]] [[Boże Narodzenie]].",
"akle": ": (1.1) ''[[ja|Ja]] [[byś|som]] [[akle]] [[w]] [[šula|šuli]] [[nimski]] [[nawuknuś|nawuknuł]].'' → [[niemiecki|Niemieckiego]] [[nauczyć|nauczyłem]] [[się]] '''[[dopiero]]''' [[w]] [[szkoła|szkole]].",
"ako": [
": (1.1) ''[[Grodk]] [[byś|jo]] [[stary|staršy]] [[ako]] [[Chośebuz]], [[byś|jo]] [[wón]] [[byś|był]] [[južo]] 893 [[od]] [[kejžor]]a Arnulfa [[twarjony]].'' → [[Grodk]] [[być|jest]] [[stary|starszy]] '''[[od]]''' [[Chociebuż]]a, [[zostać|został]] [[założony]] [[w]] 893 [[r.]] [[przez]] [[cesarz]]a Arnulfa.",
": (1.2) ''[[kompozicija|Kompozicija]] [[ako]] [[słowotworny|słowotworna]] [[metoda]] [[byś|jo]] [[w]] [[dolnoserbšćina|dolnoserbšćinje]] [[podrědowany|podrědowanu]] [[rola|rolu]] [[graś|grała]].'' → [[złożenie|Złożenie]] '''[[jako]]''' [[metoda]] [[słowotwórczy|słowotwórcza]] [[odgrywać|odgrywała]] [[w]] [[język]]u [[dolnołużycki]]m [[podrzędny|podrzędną]] [[rola|rolę]].",
": (1.3) ''[[gaby|Gaby]] [[byś|był]] [[atom]] [[tak]] [[wjeliki]] [[ako]] [[jaden|jadna]] [[katedrala]], [[by]] [[jědro]] [[byś|było]] [[małki|małke]] [[ako]] [[mucha]].'' → [[gdyby|Gdyby]] [[atom]] [[być|był]] [[tak]] [[wielki]] '''[[jak]]''' [[jeden|jedna]] [[katedra]], [[jądro]] [[być|byłoby]] [[mały|małe]] '''[[jak]]''' [[mucha]]."
],
"ceptaŕ": ": (1.1) ''Mato Koch [[byś|jo]] [[ceptaŕ]] [[za]] [[nimšćina|nimšćinu]] [[a]] [[serbšćina|serbšćinu]] [[na]] [[dolnoserbski|dolnoserbskem]] [[gymnazium]]je.'' → Mato Koch [[być|jest]] '''[[nauczyciel]]em''' [[język]]a [[niemiecki]]ego [[i]] [[łużycki]]ego [[w]] [[gimnazjum]] [[dolnołużycki]]m.",
"Albanarka": ": (1.1) ''[[wóna|Wóna]] [[byś|jo]] [[Albanarka]].'' → [[ona|Ona]] [[być|jest]] '''[[Albanka|Albanką]]'''.",
"Albańska": ": (1.1) ''[[kak|Kak]] [[byś|su]] [[w]] [[Albańska|Albańskej]] [[se]] [[šćitaś|šćitali]] [[pšawo|pšawa]] [[narodny]]ch [[mjeńšyna|mjeńšynow]][[?]]'' → [[jak|Jak]] [[w]] '''[[Albania|Albanii]]''' [[przestrzegać|przestrzegano]] [[prawo|praw]] [[mniejszość|mniejszości]] [[etniczny]]ch[[?]]",
"Andorra": ": (1.1) ''[[wóna|Wóna]] [[bydliś|bydli]] [[w]] [[Andorra|Andorrje]].'' → [[ona|Ona]] [[mieszkać|mieszka]] [[w]] '''[[Andora|Andorze]]'''.",
"atd.": ": (1.1) = [[a]] [[tak]] [[daloko|dalej]] → [[i]] [[tak]] [[dalej]], [[itd.]]",
"Awstriska": ": (1.1) ''[[ja|Ja]] [[bydliś|bydlim]] [[w]] [[Awstriska|Awstriskej]]'' → [[mieszkać|Mieszkam]] [[w]] '''[[Austria|Austrii]]'''.",
"až": [
": (1.1) ''[[někotary|Někotare]] [[mysliś|mysle]] [[až]] [[byś|jo]] [[to]] [[jaden|jadna]] [[rěc]], [[drugi|druge]] [[až]] [[byś|su]] [[to]] [[rozdźělny|rozdźělnej]] [[samostatny|samostatnej]] [[rěc]]y''. → [[niektóry|Niektórzy]] [[myśleć|myślą]], '''że''' [[być|jest]] [[to]] [[jeden]] [[język]], [[drugi|drudzy]], '''że''' [[być|są]] [[to]] [[oddzielny|oddzielne]], [[samodzielny|samodzielne]] [[język]]i."
": (1.2) ''[[cakaś|Cakamy]], [[až]] [[wóna]] [[wšykno]] [[pśigótowaś|pśigótujo]].'' → [[czekać|Czekamy]], '''aż''' [[ona]] [[wszystko]] [[przygotować|przygotuje]]."
],
"Barliń": ": (1.1) ''[[Barliń]] [[byś|jo]] [[jaden|jadno]] [[z]] [[wjeliki|nejwětšych]] [[město]]w [[pó]] [[wobydlaŕ|wobydlarjach]] [[w]] [[EU]].'' → '''[[Berlin]]''' [[być|jest]] [[jeden|jednym]] [[z]] [[duży|największych]] [[miasto|miast]] w [[UE]] [[pod względem]] [[liczba|liczby]] [[mieszkaniec|mieszkańców]].",
"barwa": ": (1.1) ''[[pśichod|Pśichod]] [[wiźeś|wiźim]] [[w]] [[carny]]ch [[barwa]]ch.'' → [[przyszłość|Przyszłość]] [[widzieć|widzę]] [[w]] [[czarny]]ch '''[[barwa]]ch'''.",
"Błota": ": (1.1) ''[[zymny|Zymny]] [[wětš]] [[duś|dujo]] [[pśez]] [[Błota]], [[kótaryž|kótarež]] [[byś|jo]] [[běły]] [[sněg]] [[wuzapokšywaś|wuzapokšywał]].'' → [[zimny|Zimny]] [[wiatr]] [[wiać|wieje]] [[przez]] [[biały|białe]], [[przykryć|przykryte]] [[śnieg]]iem '''[[Błota]]'''.",
"bom": ": (1.1) ''[[chto|Chto]] [[spěwaś|spěwa]] [[na]] [[zeleny|zelenej]] [[gorcycka|gorcycce]] [[spod]] [[słodki]]m [[bom]]om [[tak]] [[wjasele]]?'' → [[kto|Kto]] [[śpiewać|śpiewa]] [[na]] [[ten|tej]] [[góra|górze]] [[zielony|zielonej]], [[pod]] [[słodki]]m '''[[drzewo|drzewem]]''' [[wesoły|wesołe]] [[ton]]y?",
"Bórkowy": ": (1.1) ''[[w|W]] [[Bórkowy|Borkowach]] [[bydliś|bydle]] [[luź]]e [[w]] [[samotnosć]]i [[a]] [[wjaseliś se|se wjasele]], [[gaž]] [[pśiś|pśidu]] [[gósć]]i.'' → [[w|W]] '''[[Borkowy|Borkowach]]''' [[człowiek|ludzie]] [[mieszkać|mieszkają]] [[w]] [[samotność|samotności]] [[i]] [[cieszyć się|cieszą się]], [[gdy]] [[przyjść|przyjdą]] [[gość|goście]].",
"Belgiska": ": (1.1) ''[[ja|Ja]] [[bydliś|bydlim]] [[w]] [[Belgiska|Belgiskej]]'' → [[mieszkać|Mieszkam]] [[w]] '''[[Belgia|Belgii]]'''.",
"Běłoruska": ": (1.1) ''[[kak|Kak]] [[byś|su]] [[w]] [[Běłoruska|Běłoruskej]] [[se]] [[šćitaś|šćitali]] [[pšawo|pšawa]] [[narodny]]ch [[mjeńšyna|mjeńšynow]]?'' → [[jak|Jak]] [[na]] '''[[Białoruś|Białorusi]]''' [[przestrzegać|przestrzegano]] [[prawo|praw]] [[mniejszość|mniejszości]] [[etniczny]]ch?",
"se": [
": (1.1) ''[[wón|Wón]] [[byś|jo]] [[se]] [[angažěrowaś|angažěrował]] [[w]] [[opozicija|opoziciji]] [[pśeśiwo]] [[komunistiski|komunistiskemu]] [[kněžarstwo]]ju [[w]] [[Pólska|Pólskej]]'' → [[angażować się|Angażował '''się''']] [[w]] [[opozycja|opozycję]] [[przeciwko]] [[komunistyczny|komunistycznemu]] [[rząd]]owi [[w]] [[Polska|Polsce]].",
": (1.2) ''[[bridge|Bridge]] [[se]] [[graś|grajo]] [[pó]] [[styrjo]]ch.'' → [[w|W]] [[brydż]]a [[grać|gra]] '''[[się]]''' [[we]] [[cztery|czterech]].",
": (1.2) ''[[pla|Pla]] [[werb]]a «[[pytaś]]» [[se]] [[rekcija]] [[nje]][[pódawaś|pódajo]].'' → [[obok|Obok]] [[czasownik]]a «pytaś» [[nie]] [[być|jest]] [[podawać|podana]] [[rekcja]]."
],
"běły": ": (1.1) ''[[zymny|Zymny]] [[wětš]] [[duś|dujo]] [[pśez]] [[Błota]], [[kótaryž|kótarež]] [[byś|jo]] [[běły]] [[sněg]] [[wuzapokšywaś|wuzapokšywał]].'' → [[zimny|Zimny]] [[wiatr]] [[wiać|wieje]] [[przez]] '''[[biały|białe]]''', [[przykryć|przykryte]] [[śnieg]]iem [[Błota]].",
"běły flak": ": (1.1) ''[[k|K]] '''[[běły]]m [[flak]]am''' [[historija|historije]] [[serbski|serbskego]] [[lud]]u [[słušaś|słuša]] [[mimo]] [[cwiblowanje|cwiblowanja]] [[cas]] [[socializm]]a.'' → [[do|Do]] '''[[biała plama|białych plam]]''' [[w]] [[historia|historii]] [[naród|narodu]] [[łużycki]]ego [[należeć|należy]] [[bez wątpienia]] [[czas]] [[socjalizm]]u.",
"bjachaŕ": ": (1.1) ''bjachaŕ [[z]] [[wóda|wódu]]'' → kubek [[z]] [[woda|wodą]]",
"bjacharik": ": (1.1) ''[[wóni|Wóni]] [[źaržaś|źarže]] [[w]] [[ruka|ruce]] [[bjacharik]]i [[z]] [[wino]]m.'' → [[oni|Oni]] [[trzymać|trzymają]] [[w]] [[ręka|ręce]] '''[[kubek|kubki]]''' [[z]] [[wino|winem]].",
"basnikaŕ": ": (1.1) ''[[na|Na]] [[Wotrowski|Wotrowskem]] [[kjarchob]]je [[byś|jo]] [[zakopowany]] [[serbski]] [[basnikaŕ]] [[a]] [[procowaŕ]] Jakub Bart-Ćišinski.'' → [[na|Na]] [[cmentarz]]u [[w]] Wotrowie [[pochować|pochowany]] [[być|jest]] [[łużycki]] '''[[poeta]]''' [[i]] [[patriota]] Jakub Bart-Ćišinski.",
"bóśon": ": (1.1) ''[[w|W]] [[gnězdo|gnězdźe]] [[na]] [[wusoki|wusokem]] [[topoł|topole]] [[wótpocywaś|wótpocywa]] [[bóśon]].'' → [[w|W]] [[gniazdo|gnieździe]] [[na]] [[wysoki]]ej [[topola|topoli]] [[odpoczywać|odpoczywa]] '''[[bocian]]'''.",
"bóžko": ": (1.1) ''[[ja|Ja]] [[by]] [[rad]] [[pomoc|pomogł]], [[ale]] [[bóžko]] [[nja]][[móc|móžom]]'' → [[ja|Ja]] [[by]]m [[chętnie]] [[pomóc|pomógł]], [[ale]] '''niestety''' [[nie]] [[móc|mogę]].",
"nja": ": (1.1) ''[[tradicija|Tradicija]] [[nja]][[měś|ma]] [[hyšći]] 400 [[lěto|lět]].'' → [[tradycja|Tradycja]] '''nie''' [[mieć|ma]] [[jeszcze]] 400 [[rok|lat]].",
"Bramborska": ": (1.1) ''[[Bramborska]] [[granicowaś|granicujo]] [[z]] [[Pólska|Pólskeju]].'' → '''[[Brandenburgia]]''' [[graniczyć|graniczy]] [[z]] [[Polska|Polską]].",
"bratš": ": (1.1) ''[[wón|Jogo]] [[swójski]] [[bratš]] [[byś|jo]] [[wón|jogo]] [[pśeraźiś|pśeraźił]].'' → [[zdradzić|Zdradził]] [[on|go]] [[własny]] '''[[brat]]'''.",
"rola": ": (1.1) ''[[kompozicija|Kompozicija]] [[ako]] [[słowotworny|słowotworna]] [[metoda]] [[byś|jo]] [[w]] [[dolnoserbšćina|dolnoserbšćinje]] [[až]] [[do]] [[drugi|drugeje]] [[swětowy|swětoweje]] [[wojna|wojny]] [[podrědowany|podrědowanu]] [[rola|rolu]] [[graś|grała]], [[tak]] [[až]] [[se]] [[jawiś|jawi]] [[w]] Mukowem [[słownik]]u [[jano]] [[gjarstka]] [[kompozitum]]ow.'' → [[złożenie|Złożenie]] [[jako]] [[metoda]] [[słowotwórczy|słowotwórcza]] [[odgrywać|odgrywała]] [[w]] [[język]] [[dolnołużycki]]m [[aż]] [[do]] [[czas]]ów [[druga wojna światowa|drugiej wojny światowej]] [[podrzędny|podrzędną]] [[rola|rolę]], [[tak]] [[iż]] [[w]] [[słownik]]u Arnoszta Muki [[być|jest]] [[tylko]] [[garść]] [[compositum|compositów]].",
"běrtyl": [
": (1.1) ''běrtyl [[na]] [[styri]]'' → [[za]] [[kwadrans]] [[czwarty|czwarta]] (=15:45)",
": (1.2) ''[[tśi]] běrtyle [[na]] [[pěś]]'' → 16:15"
],
"Bulgarska": ": (1.1) ''[[Rumuńska]] [[granicowaś|granicujo]] [[z]] [[Bulgarska|Bulgarskeju]].'' → [[Rumunia]] [[graniczyć|graniczy]] [[z]] '''[[Bułgaria|Bułgarią]]'''.",
"by": ": (1.1) ''[[ja|Ja]] [[by]] [[rad]] [[pomoc|pomogł]], [[ale]] [[bóžko]] [[nja]][[móc|móžom]]'' → [[ja|Ja]] '''bym''' [[chętnie]] [[pomóc|pomógł]], [[ale]] [[niestety]] [[nie]] [[móc|mogę]].",
"bydliś": ": (1.1) ''[[w|W]] [[Borkowy|Borkowach]] [[bydliś|bydle]] [[luź]]e [[w]] [[samotnosć]]i [[a]] [[wjaseliś se|se wjasele]], [[gaž]] [[pśiś|pśidu]] [[gósć|gósći.]].'' → [[w|W]] [[Borkowy|Borkowach]] [[człowiek|ludzie]] '''[[mieszkać|mieszkają]]''' [[w]] [[samotność|samotności]] [[i]] [[cieszyć się|cieszą się]], [[gdy]] [[przyjść|przyjdą]] [[gość|goście]].",
"byś": [
": (1.1) ''[[Grodk]] [[byś|jo]] [[stary|staršy]] [[ako]] [[Chośebuz]].'' → [[Grodk]] '''[[być|jest]]''' [[stary|starszy]] [[od]] [[Chociebuż]]a.",
": (1.2) ''[[kompozicija|Kompozicija]] [[ako]] [[słowotworny|słowotworna]] [[metoda]] [[byś|jo]] [[w]] [[dolnoserbšćina|dolnoserbšćinje]] [[podrědowany|podrědowanu]] [[rola|rolu]] '''[[graś|grała]]'''''. → [[złożenie|Złożenie]] [[jako]] [[metoda]] [[słowotwórczy|słowotwórcza]] '''[[odgrywać|odgrywała]]''' [[w]] [[język]]u [[dolnołużycki]]m [[podrzędny|podrzędną]] [[rola|rolę]]."
],
"cakaś": ": (1.1) ''[[cakaś|Cakamy]], [[až]] [[wóna]] [[wšykno]] [[pśigótowaś|pśigótujo]].'' → '''[[czekać|Czekamy]]''', [[aż]] [[ona]] [[wszystko]] [[przygotować|przygotuje]].",
"cerwjeny": ": (1.1) ''[[kokot|Kokot]] [[z]] [[cerwjeny]]m [[pjero]]m.'' → [[kogut|Kogut]] [[z]] '''czerwonym''' [[piórko|piórkiem]].",
"Česka": ": (1.1) ''[[Słowakska]] [[granicowaś|granicujo]] [[z]] [[Česka|Českeju]].'' → [[Słowacja]] [[graniczyć|graniczy]] [[z]] '''[[Czechy|Czechami]]'''.",
"ceły": ": (1.1) ''[[słyńco|Słyńco]] [[byś|jo]] [[ceły]] [[źeń]] [[swěśiś|swěśiło]].'' → [[Słońce]] [[świecić|świeciło]] '''cały''' [[dzień]].",
"ceji": ": (1.1) ''[[ceji|Ceja]] [[to]] [[ideja]]?'' → '''[[czyj|Czyj]]''' [[to]] [[pomysł]]?",
"Čechojska": ": (1.1) ''[[Słowakska]] [[granicowaś|granicujo]] [[z]] [[Čechojska|Čechojskeju]].'' → [[Słowacja]] [[graniczyć|graniczy]] [[z]] '''[[Czechy|Czechami]]'''.",
"cas": ": (1.1) ''[[za|Za]] [[drugi|druge]] [[wěc]]y [[wón]] [[tuchylu]] [[wjele]] [[cas]]a [[měś|njama]].'' → [[na|Na]] [[inny|inne]] [[sprawa|sprawy]] [[on]] [[nie]] [[mieć|ma]] [[obecnie]] [[wiele]] '''[[czas]]u'''.",
"chóry": ": (1.1) ''[[mój|Mój]] [[muž]] [[byś|jo]] [[chóry]].'' → [[mój|Mój]] [[mąż]] [[być|jest]] '''[[chory]]'''.",
"Chóśebuz": ": (1.1) ''[[kněz|Kněz]] [[Alfred]] [[M]]. [[z]] [[Chóśebuz]]a [[byś|jo]] [[napisaś|napisał]] [[wucbnica|wucbnicu]] [[dolnoserbski|dolnoserbskeje]] [[rěc]]y [[za]] [[Pólak]]ow.'' → [[pan|Pan]] [[Alfred]] [[M]]. [[z]] '''[[Chociebuż]]a''' [[napisać|napisał]] [[podręcznik]] [[język]]a [[dolnołużycki]]ego [[dla]] [[Polak]]ów.",
"kněz": ": (1.1) ''[[kněz|Kněz]] Alfred M. [[z]] [[Chóśebuz]]a [[byś|jo]] [[napisaś|napisał]] [[wucbnica|wucbnicu]] [[dolnoserbski|dolnoserbskeje]] [[rěc]]y [[za]] [[Pólak]]ow.'' → '''Pan''' [[Alfred]] M. [[napisać|napisał]] [[podręcznik]] [[język]]a [[dolnołużycki]]ego [[dla]] [[Polak]]ów.",
"Chorwatska": ": (1.1) ''[[Chorwatska]] [[granicowaś|granicujo]] [[z]] [[Słowjeńska|Słowjeńskeju]].'' → '''[[Chorwacja]]''' [[graniczyć|graniczy]] [[ze]] [[Słowenia|Słowenią]].",
"cytaś": ": (1.1) ''Don Bosco [[byś|jo]] [[měś|měł]] [[wurědny]] [[dar]]: [[což|Což]] [[byś|jo]] [[raz]] [[cytaś|cytał]] [[abo]] [[słyšaś|słyšał]], [[to]] [[byś|jo]] [[se]] [[naraz]] [[markowaś|markował]].''<ref>[[w:dsb:Don Bosco|dolnołużycka Wikipedia]]</ref> → Don Bosco [[mieć|miał]] [[szczególny]] [[dar]]: [[co]] [[raz]] '''[[przeczytać|przeczytał]]''' [[albo]] [[usłyszeć|usłyszał]], [[od razu]] [[zapamiętać|zapamiętywał]].",
"daniž": [
": (1.1) ''[[ja|Ja]] [[daniž]] [[piwo|piwa]] [[daniž]] [[wino|wina]] [[nje]][[piś|pijom]].'' → [[nie|Nie]] [[pić|piję]] '''[[ani]]''' [[piwo|piwa]], '''[[ani]]''' [[wino|wina]].",
": (1.1) ''[[pó|Pó]] [[wójna|wójnje]] [[nje]][[byś|jo]] [[daniž]] [[jaden]] [[dom]] [[we]] [[wjas|jsy]] [[wóstaś|wóstał]].'' → [[po|Po]] [[wojna|wojnie]] [[nie]] [[zostać|został]] [[we]] [[wieś|wsi]] '''[[ani]]''' [[jeden]] [[dom]]."
],
"Dańska": ": (1.1) ''[[Dańska]] [[granicowaś|granicujo]] [[z]] [[Nimska|Nimskeju]].'' → '''[[Dania]]''' [[graniczyć|graniczy]] [[z]] [[Niemcy|Niemcami]].",
"daś": ": (1.1) ''[[naš|Naš]] [[wšedny]] [[klěb]] [[daś|daj]] [[my|nam]] [[źěnsa]].'' → [[chleb|Chleba]] [[nasz]]ego [[powszedni]]ego '''[[dać|daj]]''' [[my|nam]] [[dzisiaj]].",
"co": ": (1.1) ''– [[co|Co]] [[byś|sy]] [[kupowaś|kupił]]? – [[to|To]], [[což]] [[byś|jo]] [[ja|mě]] [[maś]] [[powěźeś|powěźeła]].'' → – [[co|Co]] [[kupować|kupiłeś]]? – [[to|To]], [[co]] [[ja|mi]] [[mama]] [[powiedzieć|powiedziała]].",
}
!pip install mwparserfromhell
import mwparserfromhell
def get_definition_parts(text):
if not text.startswith(":"):
return None
first_paren = text.find("(")
if first_paren == -1:
return None
second_paren = text.find(")", first_paren)
wordid = text[first_paren+1:second_paren]
pieces = text[second_paren+1:].split("→")
pieces = [p.strip() for p in pieces]
return {
"word_id": wordid,
"other": pieces[0],
"pl": pieces[1]
}
eg = get_definition_parts(text=DSB_EXAMPLES["barwa"])
def pad_with_mwparse(sample):
parse_pl = mwparserfromhell.parse(sample["pl"])
parse_other = mwparserfromhell.parse(sample["other"])
sample["pl_text"] = parse_pl.strip_code()
sample["other_text"] = parse_other.strip_code()
links_pl = parse_pl.filter_wikilinks()
links_other = parse_other.filter_wikilinks()
sample["pl_links"] = [(link.title, link.text) for link in links_pl]
sample["other_links"] = [(link.title, link.text) for link in links_other]
return sample
eg = pad_with_mwparse(eg)
eg
!pip install stanza
import stanza
stanza.download("pl", processors="tokenize,pos,lemma,depparse", verbose=False)
nlp = stanza.Pipeline(
lang="pl",
processors="tokenize,pos,lemma,depparse",
# Let Stanza decide sentences & tokens
verbose=False
)
print("{:C}".format(nlp(eg["pl_text"])))
print("{:C}".format(nlp("most widzę")))
!pip install simalign
lalign = "Kněz Alfred M. z Chóśebuza jo napisał wucbnicu dolnoserbskeje rěcy za Pólakow."
ralign = "Pan Alfred M. napisał podręcznik języka dolnołużyckiego dla Polaków."
from simalign import SentenceAligner
myaligner = SentenceAligner(model="bert", token_type="bpe", matching_methods="mai")
llist = lalign.split(" ")
rlist = ralign.split(" ")
alignments = myaligner.get_word_aligns(llist, rlist)
for matching_method in alignments:
print(matching_method, ":", alignments[matching_method])
for matching_method in alignments:
for ali in alignments[matching_method]:
print(llist[ali[0]], rlist[ali[1]])
print()
!wget https://dumps.wikimedia.org/plwiktionary/20250601/plwiktionary-20250601-pages-articles.xml.bz2
import bz2
FILE = "plwiktionary-20250601-pages-articles.xml.bz2"
collected = {}
collected["csb"] = {}
collected["dsb"] = {}
in_text = False
in_examples = False
title = ""
lang_code = ""
with bz2.open(FILE, "rt", encoding="utf-8") as f:
for line in f:
if "<title>" in line:
title = line.strip().replace("<title>", "").replace("</title>", "")
in_text = True
elif in_text and "</text>" in line:
in_text = False
lang_code = ""
elif line.strip().startswith("=="):
if in_text and "({{język kaszubski}})" in line:
lang_code = "csb"
elif in_text and "({{język dolnołużycki}})" in line:
lang_code = "dsb"
elif in_text and ("({{język" in line or "}}) ==" in line):
lang_code = ""
elif in_text and line.strip() == "{{przykłady}}":
in_examples = True
elif in_examples:
if line.strip().startswith("{{"):
in_examples = False
elif line.strip().startswith(":") and lang_code != "":
if not title in collected[lang_code]:
collected[lang_code][title] = []
collected[lang_code][title].append(line.strip())
import json
with open("collected_examples.json", "w", encoding="utf-8") as f:
json.dump(collected, f, ensure_ascii=False, indent=2)
conllu
# text = To je dëcht smacznô arbata.
# text_pl = To jest całkiem smaczna herbata.
1 To to PRON _ PronType=Dem|Gender=Neut|Number=Sing|Case=Nom 2 expl _ _
2 je bëc AUX _ Mood=Ind|Tense=Pres|Person=3|Number=Sing|VerbForm=Fin 0 root _ _
3 dëcht dëcht ADV _ _ 4 advmod _ _
4 smacznô smaczny ADJ _ Gender=Fem|Number=Sing|Case=Nom|Degree=Pos 2 xcomp _ _
5 arbata arbata NOUN _ Gender=Fem|Number=Sing|Case=Nom 4 nsubj _ SpaceAfter=No
6 . . PUNCT _ _ 1 punct _ _
# text = Më jesmë Kaszëbama.
# text_pl = (My) jesteśmy Kaszubami.
1 Më më PRON _ PronType=Prs|Person=1|Number=Plur|Case=Nom 2 nsubj _ _
2 jesmë bëc AUX _ Mood=Ind|Tense=Pres|Person=1|Number=Plur|VerbForm=Fin 0 root _ _
3 Kaszëbama Kaszëba NOUN _ Case=Ins|Number=Plur|Gender=Masc|Animacy=Hum 2 xcomp _ SpaceAfter=No
4 . . PUNCT _ _ 1 punct _ _
# sent_id = le#1.1
# text = Chcôł jem do miasta jachac z rena, lem zaspôł.
# text_pl = Chciałem do miasta jechać z rana, alem zaspał.
1 Chcôł chcec VERB _ Aspect=Imp|Tense=Past|VerbForm=Part|Gender=Masc|Number=Sing|Person=1 0 root _ _
2 jem bëc AUX _ Mood=Ind|Tense=Pres|VerbForm=Fin|Person=1|Number=Sing 1 aux _ _
3 do do ADP _ AdpType=Prep|Case=Gen 4 case _ _
4 miasta miasto NOUN _ Gender=Neut|Number=Sing|Case=Gen 5 obl _ _
5 jachac jachac VERB _ VerbForm=Inf 1 xcomp _ _
6 z z ADP _ AdpType=Prep|Case=Gen 7 case _ _
7 rena reno NOUN _ Gender=Neut|Number=Sing|Case=Gen 5 obl _ SpaceAfter=No
8 , , PUNCT _ _ 1 punct _ _
9-10 lem _ _ _ _ _ _ _ _
9 le le CCONJ _ _ 11 cc SpaceAfter=No _
10 m bëc AUX _ Mood=Ind|Tense=Pres|VerbForm=Fin|Person=1|Number=Sing|Clitic=Yes 11 aux _ _
11 zaspôł zaspac VERB _ Aspect=Perf|Tense=Past|VerbForm=Part|Gender=Masc|Number=Sing|Person=1 1 conj _ SpaceAfter=No
12 . . PUNCT _ _ 1 punct _ _
# sent_id = 1
# text = Chciałem do miasta jechać z rana, alem zaspał.
1 Chciał chcieć VERB praet:sg:m1:imperf Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|SubGender=Masc1|Tense=Past|VerbForm=Fin|Voice=Act 0 root _ SpaceAfter=No|TokenRange=0:6
2 em być AUX aglt:sg:pri:imperf:wok Aspect=Imp|Number=Sing|Person=1|Variant=Long 1 aux:clitic _ TokenRange=6:8
3 do do ADP prep:gen AdpType=Prep 4 case _ TokenRange=9:11
4 miasta miasto NOUN subst:sg:gen:n Case=Gen|Gender=Neut|Number=Sing 5 obl _ TokenRange=12:18
5 jechać jechać VERB inf:imperf Aspect=Imp|VerbForm=Inf|Voice=Act 1 xcomp _ TokenRange=19:25
6 z z ADP prep:gen:nwok AdpType=Prep|Variant=Short 7 case _ TokenRange=26:27
7 rana rano NOUN subst:sg:gen:n Case=Gen|Gender=Neut|Number=Sing 5 obl _ SpaceAfter=No|TokenRange=28:32
8 , , PUNCT interp PunctType=Comm 10 punct _ TokenRange=32:33
9 alem alem CCONJ conj _ 10 cc _ TokenRange=34:38
10 zaspał zaspać VERB praet:sg:m1:perf Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|SubGender=Masc1|Tense=Past|VerbForm=Fin|Voice=Act 1 conj _ SpaceAfter=No|TokenRange=39:45
11 . . PUNCT interp PunctType=Peri 1 punct _ SpaceAfter=No|TokenRange=45:46