CSB_EXAMPLES = {
    "bëc": ": (1.1) ''[[jô|Jô]] '''[[bëc|jem]]''' [[doma]].'' → ([[ja|Ja]]) '''[[być|jestem]]''' [[w]] [[dom]]u.",
    "më": ": (1.1) ''[[më|Më]] [[bëc|jesmë]] [[Kaszëba]]ma.'' → ('''[[my|My]]''') [[być|jesteśmy]] [[Kaszub]]ami.",
    "ma": ": (1.1) ''[[ma|Ma]] [[bëc|jesma]] [[Kaszëba]]ma.'' → '''[[my|My]]''' [[być|jesteśmy]] [[Kaszub]]ami.",
    "akùratno": ": (1.1) ''[[pò|Pò]] [[co|czim]] [[pòznac]], [[że]] [[akùratno]] [[ten|ta]] [[żnija]] [[bëc|je]] [[jadowiti|jadowitô]]?'' → [[po|Po]] [[co|czym]] [[poznać]], [[że]] '''[[akurat]]''' [[ta]] [[żmija]] [[być|jest]] [[jadowity|jadowita]]?",
    "abò": ": (1.1) ''[[abò|Abò]] [[biôłi|biôło]], [[abò]] [[czôrny|czôrno]].'' → '''[[albo|Albo]]''' [[biały|biało]], '''[[albo]]''' [[czarny|czarno]].",
    "abstrakcëjô": ": (1.1) ''[[nen|Nen]] [[òbrôzk]] [[to]] [[przëmiôr]] [[czësti]] [[abstrakcëjô|abstrakcëji]].'' → [[ten|Ten]] [[obraz]] [[to]] [[przykład]] [[czysty|czystej]] '''[[abstrakcja|abstrakcji]]'''.",
    "adresa": ": (1.1) ''[[wësłac|Wësłac]] [[lëst]] [[na]] [[domôcy|domôcą]] [[adresa|adrësã]].'' → [[wysłać|Wysłać]] [[list]] [[na]] '''[[adres]]''' [[domowy]].",
    "agitowac": ": (1.1) ''[[a|A]] [[co]] [[òn]] [[agitowac|agitëje]]?'' → [[a|A]] [[co]] [[on]] '''[[agitować|agituje]]'''?",
    "ani": ": (1.1) ''[[ni|Ni]] [[miec|móm]] [[ani]] [[dëtk]]a.'' → [[nie|Nie]] [[mieć|mam]] '''[[ani]]''' [[grosz]]a.",
    "apfelzynowi": ": (1.1) ''[[apfelzynowi|Apfelzynowô]] [[farwa]].'' → '''[[pomarańczowy|Pomarańczowy]]''' [[kolor]].",
    "arbata": ": (1.1) ''[[to|To]] [[bëc|je]] [[dëcht]] [[smaczny|smacznô]] [[arbata]].'' → [[to|To]] [[być|jest]] [[całkiem]] [[smaczny|smaczna]] '''[[herbata]]'''.",
}
DSB_EXAMPLES = {
    "a": ": (1.1) ''[[wjacork|Wjacork]] [[serbski|serbskeje]] [[literatura|literatury]], [[muzika|muziki]] [[a]] [[źiwadło|źiwadła]] [[w]] [[Praga|Praze]].'' → [[wieczorek|Wieczorek]] [[łużycki]]ej [[literatura|literatury]], [[muzyka|muzyki]] '''[[i]]''' [[teatr]]u [[w]] [[Praga|Pradze]].",
    "abo": ": (1.1) ''[[molekul|Molekul]] [[byś|jo]] [[źěl]], [[kótaryž]] [[wobstojaś|wobstoj]] [[z]] [[dwě|dweju]] [[abo]] [[wjele|wěcej]] [[atom]]ow [[zwězaś|zwězanych]] [[pśez]] [[kowalentny|kowalentnu]] [[wězba|wězbu]]''. → [[molekuła|Molekuła]] [[być|jest]] [[cząstka|cząstką]], [[który|która]] [[składać się|składa się]] [[z]] [[dwa|dwóch]] '''[[albo]]''' [[wiele|więcej]] [[atom]]ów [[związać|związanych]] [[przez]] [[wiązanie]] [[kowalencyjny|kowalencyjne]].",
    "adwent": ": (1.1) ''[[adwent|Adwent]] [[byś|jo]] [[cas]] [[pśigótowanje|pśigótowanja]] [[na]] [[gódy]].'' → '''[[adwent|Adwent]]''' [[być|jest]] [[czas]]em [[przygotować|przygotowania]] [[na]] [[Boże Narodzenie]].",
    "akle": ": (1.1) ''[[ja|Ja]] [[byś|som]] [[akle]] [[w]] [[šula|šuli]] [[nimski]] [[nawuknuś|nawuknuł]].'' → [[niemiecki|Niemieckiego]] [[nauczyć|nauczyłem]] [[się]] '''[[dopiero]]''' [[w]] [[szkoła|szkole]].",
    "ako": [
        ": (1.1) ''[[Grodk]] [[byś|jo]] [[stary|staršy]] [[ako]] [[Chośebuz]], [[byś|jo]] [[wón]] [[byś|był]] [[južo]] 893 [[od]] [[kejžor]]a Arnulfa [[twarjony]].'' → [[Grodk]] [[być|jest]] [[stary|starszy]] '''[[od]]''' [[Chociebuż]]a, [[zostać|został]] [[założony]] [[w]] 893 [[r.]] [[przez]] [[cesarz]]a Arnulfa.",
        ": (1.2) ''[[kompozicija|Kompozicija]] [[ako]] [[słowotworny|słowotworna]] [[metoda]] [[byś|jo]] [[w]] [[dolnoserbšćina|dolnoserbšćinje]] [[podrědowany|podrědowanu]] [[rola|rolu]] [[graś|grała]].'' → [[złożenie|Złożenie]] '''[[jako]]''' [[metoda]] [[słowotwórczy|słowotwórcza]] [[odgrywać|odgrywała]] [[w]] [[język]]u [[dolnołużycki]]m [[podrzędny|podrzędną]] [[rola|rolę]].",
        ": (1.3) ''[[gaby|Gaby]] [[byś|był]] [[atom]] [[tak]] [[wjeliki]] [[ako]] [[jaden|jadna]] [[katedrala]], [[by]] [[jědro]] [[byś|było]] [[małki|małke]] [[ako]] [[mucha]].'' → [[gdyby|Gdyby]] [[atom]] [[być|był]] [[tak]] [[wielki]] '''[[jak]]''' [[jeden|jedna]] [[katedra]], [[jądro]] [[być|byłoby]] [[mały|małe]] '''[[jak]]''' [[mucha]]."
    ],
    "ceptaŕ": ": (1.1) ''Mato Koch [[byś|jo]] [[ceptaŕ]] [[za]] [[nimšćina|nimšćinu]] [[a]] [[serbšćina|serbšćinu]] [[na]] [[dolnoserbski|dolnoserbskem]] [[gymnazium]]je.'' → Mato Koch [[być|jest]] '''[[nauczyciel]]em''' [[język]]a [[niemiecki]]ego [[i]] [[łużycki]]ego [[w]] [[gimnazjum]] [[dolnołużycki]]m.",
    "Albanarka": ": (1.1) ''[[wóna|Wóna]] [[byś|jo]] [[Albanarka]].'' → [[ona|Ona]] [[być|jest]] '''[[Albanka|Albanką]]'''.",
    "Albańska": ": (1.1) ''[[kak|Kak]] [[byś|su]] [[w]] [[Albańska|Albańskej]] [[se]] [[šćitaś|šćitali]] [[pšawo|pšawa]] [[narodny]]ch [[mjeńšyna|mjeńšynow]][[?]]'' → [[jak|Jak]] [[w]] '''[[Albania|Albanii]]''' [[przestrzegać|przestrzegano]] [[prawo|praw]] [[mniejszość|mniejszości]] [[etniczny]]ch[[?]]",
    "Andorra": ": (1.1) ''[[wóna|Wóna]] [[bydliś|bydli]] [[w]] [[Andorra|Andorrje]].'' → [[ona|Ona]] [[mieszkać|mieszka]] [[w]] '''[[Andora|Andorze]]'''.",
    "atd.": ": (1.1) = [[a]] [[tak]] [[daloko|dalej]] → [[i]] [[tak]] [[dalej]], [[itd.]]",
    "Awstriska": ": (1.1) ''[[ja|Ja]] [[bydliś|bydlim]] [[w]] [[Awstriska|Awstriskej]]'' → [[mieszkać|Mieszkam]] [[w]] '''[[Austria|Austrii]]'''.",
    "až": [
        ": (1.1) ''[[někotary|Někotare]] [[mysliś|mysle]] [[až]] [[byś|jo]] [[to]] [[jaden|jadna]] [[rěc]], [[drugi|druge]] [[až]] [[byś|su]] [[to]] [[rozdźělny|rozdźělnej]] [[samostatny|samostatnej]] [[rěc]]y''. → [[niektóry|Niektórzy]] [[myśleć|myślą]], '''że''' [[być|jest]] [[to]] [[jeden]] [[język]], [[drugi|drudzy]], '''że''' [[być|są]] [[to]] [[oddzielny|oddzielne]], [[samodzielny|samodzielne]] [[język]]i."
        ": (1.2) ''[[cakaś|Cakamy]], [[až]] [[wóna]] [[wšykno]] [[pśigótowaś|pśigótujo]].'' → [[czekać|Czekamy]], '''aż''' [[ona]] [[wszystko]] [[przygotować|przygotuje]]."
    ],
    "Barliń": ": (1.1) ''[[Barliń]] [[byś|jo]] [[jaden|jadno]] [[z]] [[wjeliki|nejwětšych]] [[město]]w [[pó]] [[wobydlaŕ|wobydlarjach]] [[w]] [[EU]].'' → '''[[Berlin]]''' [[być|jest]] [[jeden|jednym]] [[z]] [[duży|największych]] [[miasto|miast]] w [[UE]] [[pod względem]] [[liczba|liczby]] [[mieszkaniec|mieszkańców]].",
    "barwa": ": (1.1) ''[[pśichod|Pśichod]] [[wiźeś|wiźim]] [[w]] [[carny]]ch [[barwa]]ch.'' → [[przyszłość|Przyszłość]] [[widzieć|widzę]] [[w]] [[czarny]]ch '''[[barwa]]ch'''.",
    "Błota": ": (1.1) ''[[zymny|Zymny]] [[wětš]] [[duś|dujo]] [[pśez]] [[Błota]], [[kótaryž|kótarež]] [[byś|jo]] [[běły]] [[sněg]] [[wuzapokšywaś|wuzapokšywał]].'' → [[zimny|Zimny]] [[wiatr]] [[wiać|wieje]] [[przez]] [[biały|białe]], [[przykryć|przykryte]] [[śnieg]]iem '''[[Błota]]'''.",
    "bom": ": (1.1) ''[[chto|Chto]] [[spěwaś|spěwa]] [[na]] [[zeleny|zelenej]] [[gorcycka|gorcycce]] [[spod]] [[słodki]]m [[bom]]om [[tak]] [[wjasele]]?'' → [[kto|Kto]] [[śpiewać|śpiewa]] [[na]] [[ten|tej]] [[góra|górze]] [[zielony|zielonej]], [[pod]] [[słodki]]m '''[[drzewo|drzewem]]''' [[wesoły|wesołe]] [[ton]]y?",
    "Bórkowy": ": (1.1) ''[[w|W]] [[Bórkowy|Borkowach]] [[bydliś|bydle]] [[luź]]e [[w]] [[samotnosć]]i [[a]] [[wjaseliś se|se wjasele]], [[gaž]] [[pśiś|pśidu]] [[gósć]]i.'' → [[w|W]] '''[[Borkowy|Borkowach]]''' [[człowiek|ludzie]] [[mieszkać|mieszkają]] [[w]] [[samotność|samotności]] [[i]] [[cieszyć się|cieszą się]], [[gdy]] [[przyjść|przyjdą]] [[gość|goście]].",
    "Belgiska": ": (1.1) ''[[ja|Ja]] [[bydliś|bydlim]] [[w]] [[Belgiska|Belgiskej]]'' → [[mieszkać|Mieszkam]] [[w]] '''[[Belgia|Belgii]]'''.",
    "Běłoruska": ": (1.1) ''[[kak|Kak]] [[byś|su]] [[w]] [[Běłoruska|Běłoruskej]] [[se]] [[šćitaś|šćitali]] [[pšawo|pšawa]] [[narodny]]ch [[mjeńšyna|mjeńšynow]]?'' → [[jak|Jak]] [[na]] '''[[Białoruś|Białorusi]]''' [[przestrzegać|przestrzegano]] [[prawo|praw]] [[mniejszość|mniejszości]] [[etniczny]]ch?",
    "se": [
        ": (1.1) ''[[wón|Wón]] [[byś|jo]] [[se]] [[angažěrowaś|angažěrował]] [[w]] [[opozicija|opoziciji]] [[pśeśiwo]] [[komunistiski|komunistiskemu]] [[kněžarstwo]]ju [[w]] [[Pólska|Pólskej]]'' → [[angażować się|Angażował '''się''']] [[w]] [[opozycja|opozycję]] [[przeciwko]] [[komunistyczny|komunistycznemu]] [[rząd]]owi [[w]] [[Polska|Polsce]].",
        ": (1.2) ''[[bridge|Bridge]] [[se]] [[graś|grajo]] [[pó]] [[styrjo]]ch.'' → [[w|W]] [[brydż]]a [[grać|gra]] '''[[się]]''' [[we]] [[cztery|czterech]].",
        ": (1.2) ''[[pla|Pla]] [[werb]]a «[[pytaś]]» [[se]] [[rekcija]] [[nje]][[pódawaś|pódajo]].'' → [[obok|Obok]] [[czasownik]]a «pytaś» [[nie]] [[być|jest]] [[podawać|podana]] [[rekcja]]."
    ],
    "běły": ": (1.1) ''[[zymny|Zymny]] [[wětš]] [[duś|dujo]] [[pśez]] [[Błota]], [[kótaryž|kótarež]] [[byś|jo]] [[běły]] [[sněg]] [[wuzapokšywaś|wuzapokšywał]].'' → [[zimny|Zimny]] [[wiatr]] [[wiać|wieje]] [[przez]] '''[[biały|białe]]''', [[przykryć|przykryte]] [[śnieg]]iem [[Błota]].",
    "běły flak": ": (1.1) ''[[k|K]] '''[[běły]]m [[flak]]am''' [[historija|historije]] [[serbski|serbskego]] [[lud]]u [[słušaś|słuša]] [[mimo]] [[cwiblowanje|cwiblowanja]] [[cas]] [[socializm]]a.'' → [[do|Do]] '''[[biała plama|białych plam]]''' [[w]] [[historia|historii]] [[naród|narodu]] [[łużycki]]ego [[należeć|należy]] [[bez wątpienia]] [[czas]] [[socjalizm]]u.",
    "bjachaŕ": ": (1.1) ''bjachaŕ [[z]] [[wóda|wódu]]'' → kubek [[z]] [[woda|wodą]]",
    "bjacharik": ": (1.1) ''[[wóni|Wóni]] [[źaržaś|źarže]] [[w]] [[ruka|ruce]] [[bjacharik]]i [[z]] [[wino]]m.'' → [[oni|Oni]] [[trzymać|trzymają]] [[w]] [[ręka|ręce]] '''[[kubek|kubki]]''' [[z]] [[wino|winem]].",
    "basnikaŕ": ": (1.1) ''[[na|Na]] [[Wotrowski|Wotrowskem]] [[kjarchob]]je [[byś|jo]] [[zakopowany]] [[serbski]] [[basnikaŕ]] [[a]] [[procowaŕ]] Jakub Bart-Ćišinski.'' → [[na|Na]] [[cmentarz]]u [[w]] Wotrowie [[pochować|pochowany]] [[być|jest]] [[łużycki]] '''[[poeta]]''' [[i]] [[patriota]] Jakub Bart-Ćišinski.",
    "bóśon": ": (1.1) ''[[w|W]] [[gnězdo|gnězdźe]] [[na]] [[wusoki|wusokem]] [[topoł|topole]] [[wótpocywaś|wótpocywa]] [[bóśon]].'' → [[w|W]] [[gniazdo|gnieździe]] [[na]] [[wysoki]]ej [[topola|topoli]] [[odpoczywać|odpoczywa]] '''[[bocian]]'''.",
    "bóžko": ": (1.1) ''[[ja|Ja]] [[by]] [[rad]] [[pomoc|pomogł]], [[ale]] [[bóžko]] [[nja]][[móc|móžom]]'' → [[ja|Ja]] [[by]]m [[chętnie]] [[pomóc|pomógł]], [[ale]] '''niestety''' [[nie]] [[móc|mogę]].",
    "nja": ": (1.1) ''[[tradicija|Tradicija]] [[nja]][[měś|ma]] [[hyšći]] 400 [[lěto|lět]].'' → [[tradycja|Tradycja]] '''nie''' [[mieć|ma]] [[jeszcze]] 400 [[rok|lat]].",
    "Bramborska": ": (1.1) ''[[Bramborska]] [[granicowaś|granicujo]] [[z]] [[Pólska|Pólskeju]].'' → '''[[Brandenburgia]]''' [[graniczyć|graniczy]] [[z]] [[Polska|Polską]].",
    "bratš": ": (1.1) ''[[wón|Jogo]] [[swójski]] [[bratš]] [[byś|jo]] [[wón|jogo]] [[pśeraźiś|pśeraźił]].'' → [[zdradzić|Zdradził]] [[on|go]] [[własny]] '''[[brat]]'''.",
    "rola": ": (1.1) ''[[kompozicija|Kompozicija]] [[ako]] [[słowotworny|słowotworna]] [[metoda]] [[byś|jo]] [[w]] [[dolnoserbšćina|dolnoserbšćinje]] [[až]] [[do]] [[drugi|drugeje]] [[swětowy|swětoweje]] [[wojna|wojny]] [[podrědowany|podrědowanu]] [[rola|rolu]] [[graś|grała]], [[tak]] [[až]] [[se]] [[jawiś|jawi]] [[w]] Mukowem [[słownik]]u [[jano]] [[gjarstka]] [[kompozitum]]ow.'' → [[złożenie|Złożenie]] [[jako]] [[metoda]] [[słowotwórczy|słowotwórcza]] [[odgrywać|odgrywała]] [[w]] [[język]] [[dolnołużycki]]m [[aż]] [[do]] [[czas]]ów [[druga wojna światowa|drugiej wojny światowej]] [[podrzędny|podrzędną]] [[rola|rolę]], [[tak]] [[iż]] [[w]] [[słownik]]u Arnoszta Muki [[być|jest]] [[tylko]] [[garść]] [[compositum|compositów]].",
    "běrtyl": [
        ": (1.1) ''běrtyl [[na]] [[styri]]'' → [[za]] [[kwadrans]] [[czwarty|czwarta]] (=15:45)",
        ": (1.2) ''[[tśi]] běrtyle [[na]] [[pěś]]'' → 16:15"
    ],
    "Bulgarska": ": (1.1) ''[[Rumuńska]] [[granicowaś|granicujo]] [[z]] [[Bulgarska|Bulgarskeju]].'' → [[Rumunia]] [[graniczyć|graniczy]] [[z]] '''[[Bułgaria|Bułgarią]]'''.",
    "by": ": (1.1) ''[[ja|Ja]] [[by]] [[rad]] [[pomoc|pomogł]], [[ale]] [[bóžko]] [[nja]][[móc|móžom]]'' → [[ja|Ja]] '''bym''' [[chętnie]] [[pomóc|pomógł]], [[ale]] [[niestety]] [[nie]] [[móc|mogę]].",
    "bydliś": ": (1.1) ''[[w|W]] [[Borkowy|Borkowach]] [[bydliś|bydle]] [[luź]]e [[w]] [[samotnosć]]i [[a]] [[wjaseliś se|se wjasele]], [[gaž]] [[pśiś|pśidu]] [[gósć|gósći.]].'' → [[w|W]] [[Borkowy|Borkowach]] [[człowiek|ludzie]] '''[[mieszkać|mieszkają]]''' [[w]] [[samotność|samotności]] [[i]] [[cieszyć się|cieszą się]], [[gdy]] [[przyjść|przyjdą]] [[gość|goście]].",
    "byś": [
        ": (1.1) ''[[Grodk]] [[byś|jo]] [[stary|staršy]] [[ako]] [[Chośebuz]].'' → [[Grodk]] '''[[być|jest]]''' [[stary|starszy]] [[od]] [[Chociebuż]]a.",
        ": (1.2) ''[[kompozicija|Kompozicija]] [[ako]] [[słowotworny|słowotworna]] [[metoda]] [[byś|jo]] [[w]] [[dolnoserbšćina|dolnoserbšćinje]] [[podrědowany|podrědowanu]] [[rola|rolu]] '''[[graś|grała]]'''''. → [[złożenie|Złożenie]] [[jako]] [[metoda]] [[słowotwórczy|słowotwórcza]] '''[[odgrywać|odgrywała]]''' [[w]] [[język]]u [[dolnołużycki]]m [[podrzędny|podrzędną]] [[rola|rolę]]."
    ],
    "cakaś": ": (1.1) ''[[cakaś|Cakamy]], [[až]] [[wóna]] [[wšykno]] [[pśigótowaś|pśigótujo]].'' → '''[[czekać|Czekamy]]''', [[aż]] [[ona]] [[wszystko]] [[przygotować|przygotuje]].",
    "cerwjeny": ": (1.1) ''[[kokot|Kokot]] [[z]] [[cerwjeny]]m [[pjero]]m.'' → [[kogut|Kogut]] [[z]] '''czerwonym''' [[piórko|piórkiem]].",
    "Česka": ": (1.1) ''[[Słowakska]] [[granicowaś|granicujo]] [[z]] [[Česka|Českeju]].'' → [[Słowacja]] [[graniczyć|graniczy]] [[z]] '''[[Czechy|Czechami]]'''.",
    "ceły": ": (1.1) ''[[słyńco|Słyńco]] [[byś|jo]] [[ceły]] [[źeń]] [[swěśiś|swěśiło]].'' → [[Słońce]] [[świecić|świeciło]] '''cały''' [[dzień]].",
    "ceji": ": (1.1) ''[[ceji|Ceja]] [[to]] [[ideja]]?'' → '''[[czyj|Czyj]]''' [[to]] [[pomysł]]?",
    "Čechojska": ": (1.1) ''[[Słowakska]] [[granicowaś|granicujo]] [[z]] [[Čechojska|Čechojskeju]].'' → [[Słowacja]] [[graniczyć|graniczy]] [[z]] '''[[Czechy|Czechami]]'''.",
    "cas": ": (1.1) ''[[za|Za]] [[drugi|druge]] [[wěc]]y [[wón]] [[tuchylu]] [[wjele]] [[cas]]a [[měś|njama]].'' → [[na|Na]] [[inny|inne]] [[sprawa|sprawy]] [[on]] [[nie]] [[mieć|ma]] [[obecnie]] [[wiele]] '''[[czas]]u'''.",
    "chóry": ": (1.1) ''[[mój|Mój]] [[muž]] [[byś|jo]] [[chóry]].'' → [[mój|Mój]] [[mąż]] [[być|jest]] '''[[chory]]'''.",
    "Chóśebuz": ": (1.1) ''[[kněz|Kněz]] [[Alfred]] [[M]]. [[z]] [[Chóśebuz]]a [[byś|jo]] [[napisaś|napisał]] [[wucbnica|wucbnicu]] [[dolnoserbski|dolnoserbskeje]] [[rěc]]y [[za]] [[Pólak]]ow.'' → [[pan|Pan]] [[Alfred]] [[M]]. [[z]] '''[[Chociebuż]]a''' [[napisać|napisał]] [[podręcznik]] [[język]]a [[dolnołużycki]]ego [[dla]] [[Polak]]ów.",
    "kněz": ": (1.1) ''[[kněz|Kněz]] Alfred M. [[z]] [[Chóśebuz]]a [[byś|jo]] [[napisaś|napisał]] [[wucbnica|wucbnicu]] [[dolnoserbski|dolnoserbskeje]] [[rěc]]y [[za]] [[Pólak]]ow.'' → '''Pan''' [[Alfred]] M. [[napisać|napisał]] [[podręcznik]] [[język]]a [[dolnołużycki]]ego [[dla]] [[Polak]]ów.",
    "Chorwatska": ": (1.1) ''[[Chorwatska]] [[granicowaś|granicujo]] [[z]] [[Słowjeńska|Słowjeńskeju]].'' → '''[[Chorwacja]]''' [[graniczyć|graniczy]] [[ze]] [[Słowenia|Słowenią]].",
    "cytaś": ": (1.1) ''Don Bosco [[byś|jo]] [[měś|měł]] [[wurědny]] [[dar]]: [[což|Což]] [[byś|jo]] [[raz]] [[cytaś|cytał]] [[abo]] [[słyšaś|słyšał]], [[to]] [[byś|jo]] [[se]] [[naraz]] [[markowaś|markował]].''<ref>[[w:dsb:Don Bosco|dolnołużycka Wikipedia]]</ref> → Don Bosco [[mieć|miał]] [[szczególny]] [[dar]]: [[co]] [[raz]] '''[[przeczytać|przeczytał]]''' [[albo]] [[usłyszeć|usłyszał]], [[od razu]] [[zapamiętać|zapamiętywał]].",
    "daniž": [
        ": (1.1) ''[[ja|Ja]] [[daniž]] [[piwo|piwa]] [[daniž]] [[wino|wina]] [[nje]][[piś|pijom]].'' → [[nie|Nie]] [[pić|piję]] '''[[ani]]''' [[piwo|piwa]], '''[[ani]]''' [[wino|wina]].",
        ": (1.1) ''[[pó|Pó]] [[wójna|wójnje]] [[nje]][[byś|jo]] [[daniž]] [[jaden]] [[dom]] [[we]] [[wjas|jsy]] [[wóstaś|wóstał]].'' → [[po|Po]] [[wojna|wojnie]] [[nie]] [[zostać|został]] [[we]] [[wieś|wsi]] '''[[ani]]''' [[jeden]] [[dom]]."
    ],
    "Dańska": ": (1.1) ''[[Dańska]] [[granicowaś|granicujo]] [[z]] [[Nimska|Nimskeju]].'' → '''[[Dania]]''' [[graniczyć|graniczy]] [[z]] [[Niemcy|Niemcami]].",
    "daś": ": (1.1) ''[[naš|Naš]] [[wšedny]] [[klěb]] [[daś|daj]] [[my|nam]] [[źěnsa]].'' → [[chleb|Chleba]] [[nasz]]ego [[powszedni]]ego '''[[dać|daj]]''' [[my|nam]] [[dzisiaj]].",
    "co": ": (1.1) ''– [[co|Co]] [[byś|sy]] [[kupowaś|kupił]]? – [[to|To]], [[což]] [[byś|jo]] [[ja|mě]] [[maś]] [[powěźeś|powěźeła]].'' → – [[co|Co]] [[kupować|kupiłeś]]? – [[to|To]], [[co]] [[ja|mi]] [[mama]] [[powiedzieć|powiedziała]].",

}
!pip install mwparserfromhell
import mwparserfromhell
def get_definition_parts(text):
    if not text.startswith(":"):
        return None
    first_paren = text.find("(")
    if first_paren == -1:
        return None
    second_paren = text.find(")", first_paren)
    wordid = text[first_paren+1:second_paren]

    pieces = text[second_paren+1:].split("→")
    pieces = [p.strip() for p in pieces]
    return {
        "word_id": wordid,
        "other": pieces[0],
        "pl": pieces[1]
    }
eg = get_definition_parts(text=DSB_EXAMPLES["barwa"])
def pad_with_mwparse(sample):
    parse_pl = mwparserfromhell.parse(sample["pl"])
    parse_other = mwparserfromhell.parse(sample["other"])
    sample["pl_text"] = parse_pl.strip_code()
    sample["other_text"] = parse_other.strip_code()

    links_pl = parse_pl.filter_wikilinks()
    links_other = parse_other.filter_wikilinks()

    sample["pl_links"] = [(link.title, link.text) for link in links_pl]
    sample["other_links"] = [(link.title, link.text) for link in links_other]
    return sample
eg = pad_with_mwparse(eg)
eg
{'word_id': '1.1',
 'other': "''[[pśichod|Pśichod]] [[wiźeś|wiźim]] [[w]] [[carny]]ch [[barwa]]ch.''",
 'pl': "[[przyszłość|Przyszłość]] [[widzieć|widzę]] [[w]] [[czarny]]ch '''[[barwa]]ch'''.",
 'pl_text': 'Przyszłość widzę w czarnych barwach.',
 'other_text': 'Pśichod wiźim w carnych barwach.',
 'pl_links': [('przyszłość', 'Przyszłość'),
  ('widzieć', 'widzę'),
  ('w', None),
  ('czarny', None),
  ('barwa', None)],
 'other_links': [('pśichod', 'Pśichod'),
  ('wiźeś', 'wiźim'),
  ('w', None),
  ('carny', None),
  ('barwa', None)]}
!pip install stanza
import stanza
stanza.download("pl", processors="tokenize,pos,lemma,depparse", verbose=False)

nlp = stanza.Pipeline(
    lang="pl",
    processors="tokenize,pos,lemma,depparse",
    # Let Stanza decide sentences & tokens
    verbose=False
)
print("{:C}".format(nlp(eg["pl_text"])))
# text = Przyszłość widzę w czarnych barwach.
# sent_id = 0
1	Przyszłość	przyszłość	NOUN	subst:sg:nom:f	Case=Acc|Gender=Fem|Number=Sing	2	nsubj	_	start_char=0|end_char=10
2	widzę	widzieć	VERB	fin:sg:pri:imperf	Aspect=Imp|Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin|Voice=Act	0	root	_	start_char=11|end_char=16
3	w	w	ADP	prep:loc:nwok	AdpType=Prep|Variant=Short	5	case	_	start_char=17|end_char=18
4	czarnych	czarny	ADJ	adj:pl:loc:f:pos	Case=Loc|Degree=Pos|Gender=Fem|Number=Plur	5	amod	_	start_char=19|end_char=27
5	barwach	barwa	NOUN	subst:pl:loc:f	Case=Loc|Gender=Fem|Number=Plur	2	obl	_	start_char=28|end_char=35|SpaceAfter=No
6	.	.	PUNCT	interp	PunctType=Peri	2	punct	_	start_char=35|end_char=36|SpaceAfter=No
print("{:C}".format(nlp("most widzę")))
# text = most widzę
# sent_id = 0
1	most	most	NOUN	subst:sg:nom:m3	Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing	2	nsubj	_	start_char=0|end_char=4
2	widzę	widzieć	VERB	fin:sg:pri:imperf	Aspect=Imp|Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin|Voice=Act	0	root	_	start_char=5|end_char=10|SpaceAfter=No
!pip install simalign
lalign = "Kněz Alfred M. z Chóśebuza jo napisał wucbnicu dolnoserbskeje rěcy za Pólakow."
ralign = "Pan Alfred M. napisał podręcznik języka dolnołużyckiego dla Polaków."
from simalign import SentenceAligner

myaligner = SentenceAligner(model="bert", token_type="bpe", matching_methods="mai")
llist = lalign.split(" ")
rlist = ralign.split(" ")
alignments = myaligner.get_word_aligns(llist, rlist)
2025-06-05 10:55:01,498 - simalign.simalign - INFO - Initialized the EmbeddingLoader with model: bert-base-multilingual-cased
INFO:simalign.simalign:Initialized the EmbeddingLoader with model: bert-base-multilingual-cased
for matching_method in alignments:
    print(matching_method, ":", alignments[matching_method])
mwmf : [(0, 0), (1, 1), (2, 2), (6, 3), (7, 4), (8, 6), (9, 6), (10, 7), (11, 5), (11, 8)]
inter : [(0, 0), (1, 1), (2, 2), (6, 3), (7, 4), (8, 6), (9, 6), (10, 7), (11, 8)]
itermax : [(0, 0), (1, 1), (2, 2), (6, 3), (7, 4), (8, 6), (9, 6), (10, 7), (11, 5), (11, 8)]
for matching_method in alignments:
    for ali in alignments[matching_method]:
        print(llist[ali[0]], rlist[ali[1]])
    print()
!wget https://dumps.wikimedia.org/plwiktionary/20250601/plwiktionary-20250601-pages-articles.xml.bz2
import bz2

FILE = "plwiktionary-20250601-pages-articles.xml.bz2"

collected = {}
collected["csb"] = {}
collected["dsb"] = {}

in_text = False
in_examples = False
title = ""
lang_code = ""

with bz2.open(FILE, "rt", encoding="utf-8") as f:
    for line in f:
        if "<title>" in line:
            title = line.strip().replace("<title>", "").replace("</title>", "")
            in_text = True
        elif in_text and "</text>" in line:
            in_text = False
            lang_code = ""
        elif line.strip().startswith("=="):
            if in_text and "({{język kaszubski}})" in line:
                lang_code = "csb"
            elif in_text and "({{język dolnołużycki}})" in line:
                lang_code = "dsb"
            elif in_text and ("({{język" in line or "}}) ==" in line):
                lang_code = ""
        elif in_text and line.strip() == "{{przykłady}}":
            in_examples = True
        elif in_examples:
            if line.strip().startswith("{{"):
                in_examples = False
            elif line.strip().startswith(":") and lang_code != "":
                if not title in collected[lang_code]:
                    collected[lang_code][title] = []
                collected[lang_code][title].append(line.strip())
import json
with open("collected_examples.json", "w", encoding="utf-8") as f:
    json.dump(collected, f, ensure_ascii=False, indent=2)
conllu
# text = To je dëcht smacznô arbata.
# text_pl = To jest całkiem smaczna herbata.
1   To  to  PRON    _   PronType=Dem|Gender=Neut|Number=Sing|Case=Nom   2   expl    _   _
2   je  bëc AUX _   Mood=Ind|Tense=Pres|Person=3|Number=Sing|VerbForm=Fin   0   root    _   _
3   dëcht   dëcht   ADV _   _   4   advmod  _   _
4   smacznô smaczny ADJ _   Gender=Fem|Number=Sing|Case=Nom|Degree=Pos  2   xcomp   _   _
5   arbata  arbata  NOUN    _   Gender=Fem|Number=Sing|Case=Nom 4   nsubj   _   SpaceAfter=No
6   .   .   PUNCT   _   _   1   punct   _   _

# text = Më jesmë Kaszëbama.
# text_pl = (My) jesteśmy Kaszubami.
1   Më  më  PRON    _   PronType=Prs|Person=1|Number=Plur|Case=Nom  2   nsubj   _   _
2   jesmë   bëc AUX _   Mood=Ind|Tense=Pres|Person=1|Number=Plur|VerbForm=Fin   0   root    _   _
3   Kaszëbama   Kaszëba NOUN    _   Case=Ins|Number=Plur|Gender=Masc|Animacy=Hum    2   xcomp   _   SpaceAfter=No
4   .   .   PUNCT   _   _   1   punct   _   _

# sent_id = le#1.1
# text = Chcôł jem do miasta jachac z rena, lem zaspôł.
# text_pl = Chciałem do miasta jechać z rana, alem zaspał.
1   Chcôł   chcec   VERB    _   Aspect=Imp|Tense=Past|VerbForm=Part|Gender=Masc|Number=Sing|Person=1    0   root    _   _
2   jem bëc AUX _   Mood=Ind|Tense=Pres|VerbForm=Fin|Person=1|Number=Sing   1   aux _   _
3   do  do  ADP _   AdpType=Prep|Case=Gen   4   case    _   _
4   miasta  miasto  NOUN    _   Gender=Neut|Number=Sing|Case=Gen    5   obl _   _
5   jachac  jachac  VERB    _   VerbForm=Inf    1   xcomp   _   _
6   z   z   ADP _   AdpType=Prep|Case=Gen   7   case    _   _
7   rena    reno    NOUN    _   Gender=Neut|Number=Sing|Case=Gen    5   obl _   SpaceAfter=No
8   ,   ,   PUNCT   _   _   1   punct   _   _
9-10    lem _   _   _   _   _   _   _   _
9   le  le  CCONJ   _   _   11  cc  SpaceAfter=No   _
10  m   bëc AUX _   Mood=Ind|Tense=Pres|VerbForm=Fin|Person=1|Number=Sing|Clitic=Yes    11  aux _   _
11  zaspôł  zaspac  VERB    _   Aspect=Perf|Tense=Past|VerbForm=Part|Gender=Masc|Number=Sing|Person=1   1   conj    _   SpaceAfter=No
12  .   .   PUNCT   _   _   1   punct   _   _
# sent_id = 1
# text = Chciałem do miasta jechać z rana, alem zaspał.
1   Chciał  chcieć  VERB    praet:sg:m1:imperf  Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|SubGender=Masc1|Tense=Past|VerbForm=Fin|Voice=Act   0   root    _   SpaceAfter=No|TokenRange=0:6
2   em  być AUX aglt:sg:pri:imperf:wok  Aspect=Imp|Number=Sing|Person=1|Variant=Long    1   aux:clitic  _   TokenRange=6:8
3   do  do  ADP prep:gen    AdpType=Prep    4   case    _   TokenRange=9:11
4   miasta  miasto  NOUN    subst:sg:gen:n  Case=Gen|Gender=Neut|Number=Sing    5   obl _   TokenRange=12:18
5   jechać  jechać  VERB    inf:imperf  Aspect=Imp|VerbForm=Inf|Voice=Act   1   xcomp   _   TokenRange=19:25
6   z   z   ADP prep:gen:nwok   AdpType=Prep|Variant=Short  7   case    _   TokenRange=26:27
7   rana    rano    NOUN    subst:sg:gen:n  Case=Gen|Gender=Neut|Number=Sing    5   obl _   SpaceAfter=No|TokenRange=28:32
8   ,   ,   PUNCT   interp  PunctType=Comm  10  punct   _   TokenRange=32:33
9   alem    alem    CCONJ   conj    _   10  cc  _   TokenRange=34:38
10  zaspał  zaspać  VERB    praet:sg:m1:perf    Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|SubGender=Masc1|Tense=Past|VerbForm=Fin|Voice=Act  1   conj    _   SpaceAfter=No|TokenRange=39:45
11  .   .   PUNCT   interp  PunctType=Peri  1   punct   _   SpaceAfter=No|TokenRange=45:46