Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CCMatrix] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELITR_ECA] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [KDE4/doc] [liv4ever] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [MT560] [NC] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

EUbookshop

Corpus of documents from the EU bookshop

48 languages, 794 bitexts
total number of files: 135,785
total number of tokens: 3.60G
total number of sentence fragments: 173.20M

Please cite the following article if you use any part of the corpus in your own work:
J. Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

Download

Below you can download data files for all language pairs in different formats and with different kind of annotation (if available). You can click on the various links as explained below. In addition to the files shown on this webpage, OPUS also provides pre-compiled word alignments and phrase tables, bilingual dictionaries, frequency counts, and these files can be found through the resources search form on the top-level website of OPUS. Source: http://bookshop.europa.eu - Thanks to Tilde (http://www.tilde.com) for collecting the data, within the EU ICT PSP project LetsMT! (https://www.letsmt.eu/)

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = tokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = untokenized corpus files

ar be bg bs ca cn cs cy da de el en es et fi fr fr_BE ga gd hr hu is it ja lb lt lv mk mt nb nl nl_BE pl po pt ro ru sh sk sl sq sr sv sw tc tr uk zh
ar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewar
be viewbe viewbe
bg ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bs ces viewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewbs
ca ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewca
cn viewviewviewviewviewviewviewcn viewviewcn
cs ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
cy ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewcy viewviewviewviewviewviewviewviewviewcy
da ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda
de ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
es ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
et ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet
fi ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi
fr ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr
fr_BE ces ces ces ces ces ces ces viewviewfr_BE viewviewviewviewviewviewviewviewviewviewfr_BE
ga ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewga viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewga
gd ces ces ces ces ces ces ces ces ces ces ces ces viewviewgd viewviewviewviewviewviewviewviewviewviewgd
hr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewhr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr
hu ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
is ces ces ces ces ces ces ces ces ces ces ces ces viewis viewviewviewviewviewviewviewviewviewviewviewviewviewviewis
it ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewit viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewit
ja ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ja viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewja
ar be bg bs ca cn cs cy da de el en es et fi fr fr_BE ga gd hr hu is it ja lb lt lv mk mt nb nl nl_BE pl po pt ro ru sh sk sl sq sr sv sw tc tr uk zh
lb ces ces ces ces ces ces ces ces ces ces lb viewviewviewviewlb
lt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewlt
lv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lv ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewlv
mk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
mt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mt ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmt
nb ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nb ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewnb
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnl
nl_BE ces ces ces ces ces ces ces ces ces ces ces ces ces nl_BE ces ces ces ces viewviewviewviewviewnl_BE
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewpl
po ces ces ces ces ces ces ces po ces viewviewpo
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewpt
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewru
sh ces ces ces sh ces viewviewsh
sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewsk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewsl
sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewsq
sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewsr
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewsv
sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewsw
tc ces ces ces ces ces ces ces tc ces ces ces tc
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewtr
uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces uk
zh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh
ar be bg bs ca cn cs cy da de el en es et fi fr fr_BE ga gd hr hu is it ja lb lt lv mk mt nb nl nl_BE pl po pt ro ru sh sk sl sq sr sv sw tc tr uk zh

Statistics and TMX/Moses Downloads

Number of files, tokens, and sentences per language (including non-parallel ones if they exist)
Number of sentence alignment units per language pair

Upper-right triangle: download translation memory files (TMX)
Bottom-left triangle: download plain text files (MOSES/GIZA++)
Language ID's, first row: monolingual plain text files (tokenized)
Language ID's, first column: monolingual plain text files (untokenized)

language files tokens sentencesar be bg bs ca cn cs cy da de el en es et fi fr fr_BE ga gd hr hu is it ja lb lt lv mk mt nb nl nl_BE pl po pt ro ru sh sk sl sq sr sv sw tc tr uk zh
ar 30 80.0k 4.5k18 0.1k 80 0.1k 0.1k 1.6k 0.2k 99 0.1k 1.2k 15 0.1k 0.2k 0.1k 0.1k 0.2k 96 0.1k 0.1k 100 1.0k 87 0.1k 90
be 1 0.1k 135
bg 751 10.1M 0.4M18 0.3k 1.2k 0.2M 0.2M 0.2M 0.2M 0.2M 0.2M 0.2M 0.2M 0.2M 38.4k 48 2.7k 0.2M 5.2k 0.2M 0.2M 0.2M 2.5k 0.1M 14.5k 0.2M 0.2M 0.2M 0.2M 0.8k 0.2M 0.2M 1.5k 1.5k 0.2M 8 13.5k
bs 5 27.7k 0.9k0.3k 0.4k 0.4k 0.4k 0.6k 0.4k 0.4k 0.4k 0.3k 0.6k 32 29 0.3k 0.4k 0.4k 0.3k 0.4k 0.4k 0.4k 0.3k 0.4k 0.4k 0.7k 0.6k 0.4k 0.4k
ca 37 0.1M 6.1k1.2k 1.7k 2.4k 2.2k 2.5k 3.7k 3.0k 1.8k 2.5k 3.1k 0.1k 64 0.6k 1.1k 2.9k 1.9k 1.8k 1.5k 3.1k 1.8k 2.8k 0.8k 2.0k 1.9k 1.8k
cn 1 0 0
cs 1,194 16.3M 0.8M0.1k 0.2M 0.4k 1.8k 0.6k 0.3M 0.3M 0.3M 0.4M 0.4M 0.3M 0.3M 0.3M 52.7k 21 3.7k 0.4M 6.8k 0.4M 45 0.4M 0.4M 2.7k 0.2M 19.2k 0.4M 0.4M 0.4M 0.3M 1.8k 0.4M 0.3M 1.6k 1.5k 0.3M 14 17.9k 1.4k
cy 12 90.5k 4.3k0.6k 0.5k 0.6k 0.5k 2.9k 0.5k 0.5k 0.6k 0.6k 0.4k 0.5k 0.5k 0.6k 0.6k 0.5k 0.5k 0.5k 0.5k 0.6k 0.5k 0.6k 0.4k
da 7,081 208.2M 8.7M80 0.2M 2.6k 0.4M 0.5k 4.4M 3.3M 4.5M 3.6M 0.3M 1.6M 4.1M 69.5k 20 2.7k 0.3M 8.2k 4.4M 76 0.3M 0.3M 1.1k 0.2M 23.3k 4.7M 0.3M 3.3M 0.2M 5.1k 0.3M 0.3M 13 4 1.6M 10 0.6k 12.4k 1.4k
de 15,585 346.4M 18.2M0.1k 0.2M 0.4k 2.6k 0.4M 0.6k 4.8M 3.7M 8.3M 4.5M 0.3M 1.7M 7.7M 80.4k 69 3.1k 0.3M 8.6k 5.4M 96 0.3M 0.3M 2.8k 0.2M 25.6k 5.2M 0.4M 3.5M 0.2M 8.3k 0.3M 0.3M 1.6k 1.4k 1.6M 13 0.5k 18.0k 1.6k
el 6,486 213.2M 10.0M0.1k 0.2M 0.4k 2.8k 0.4M 0.5k 3.6M 4.0M 3.6M 3.5M 0.3M 1.5M 3.7M 90.7k 38 3.4k 0.3M 7.9k 3.7M 2 0.3M 0.3M 2.8k 0.2M 19.4k 3.7M 0.3M 3.2M 0.2M 6.4k 0.3M 0.3M 1.6k 1.6k 1.4M 6 13.1k 0.7k
en 37,663 1.2G 66.4M1.7k 5 0.2M 0.6k 4.2k 0.5M 3.1k 5.0M 9.3M 4.0M 4.8M 0.4M 1.8M 9.4M 95.7k 100 5.8k 0.4M 9.2k 5.8M 96 0.4M 0.4M 2.3k 0.2M 27.0k 5.4M 0.5M 3.8M 0.3M 45.0k 0.5k 0.4M 0.3M 2.0k 1.4k 1.8M 15 0.2k 22.1k 1.7k
es 7,716 223.5M 8.2M0.2k 0.2M 0.4k 3.4k 0.4M 0.5k 3.8M 4.8M 3.8M 5.2M 0.3M 1.7M 4.6M 78.4k 53 4.9k 0.3M 8.0k 4.3M 82 0.3M 0.4M 2.6k 0.2M 24.4k 4.1M 0.4M 3.7M 0.3M 7.9k 0.3M 0.3M 1.6k 1.5k 1.6M 12 0.5k 18.8k 1.4k
et 1,151 12.6M 0.7M99 0.2M 0.4k 1.8k 0.4M 0.5k 0.4M 0.4M 0.3M 0.4M 0.4M 0.3M 0.3M 46.9k 21 3.6k 0.3M 6.9k 0.3M 58 0.4M 0.4M 2.5k 0.2M 19.0k 0.4M 0.4M 0.3M 0.3M 1.8k 0.4M 0.3M 1.6k 1.4k 0.3M 12 14.0k 1.4k
fi 4,055 63.1M 3.6M0.1k 0.2M 0.4k 2.8k 0.4M 0.6k 1.8M 1.9M 1.7M 2.0M 1.8M 0.4M 1.7M 62.7k 34 4.5k 0.3M 10.0k 1.7M 84 0.4M 0.4M 2.7k 0.2M 26.9k 1.8M 0.4M 1.7M 0.2M 5.9k 0.3M 0.3M 1.8k 1.5k 1.7M 14 16.0k 1.6k
fr 17,261 445.8M 18.5M1.2k 0.2M 0.4k 3.4k 0.4M 0.6k 4.4M 8.6M 4.1M 10.6M 4.9M 0.4M 1.9M 88.6k 83 5.0k 0.3M 8.6k 5.2M 83 0.3M 0.3M 2.7k 0.2M 25.3k 4.8M 0.4M 3.7M 0.2M 14.9k 0.3M 0.3M 1.5k 1.4k 1.7M 16 0.5k 20.5k 1.6k
fr_BE 2 0 0
ga 246 4.0M 0.2M15 55.9k 0.1k 76.8k 0.4k 88.6k 0.1M 0.1M 0.1M 0.1M 63.1k 81.9k 0.1M 71 0.5k 49.8k 4.6k 87.0k 52.1k 52.4k 0.5k 57.7k 4.5k 88.6k 52.2k 86.4k 47.8k 0.2k 51.7k 52.3k 5 68.6k 5 4.4k
gd 1 2.2k 0.2k48 64 21 20 69 38 100 53 21 34 83 71 30 54 26 23 64 44 40 51 50 91 26 37
hr 23 0.2M 8.7k2.7k 0.6k 0.6k 4.1k 0.5k 2.8k 3.3k 3.8k 6.1k 5.3k 3.9k 4.9k 5.3k 0.5k 1.7k 2.9k 3.7k 3.6k 2.5k 1.6k 1.2k 4.3k 3.6k 2.8k 3.1k 0.9k 0.4k 3.5k 3.7k 2.0k 1.6k 3.6k 7 3.9k 0.3k
hu 1,159 14.9M 0.8M0.1k 0.2M 32 1.2k 0.4M 0.5k 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 72.5k 30 1.7k 6.3k 0.3M 67 0.3M 0.4M 1.2k 0.2M 16.9k 0.3M 0.4M 0.3M 0.3M 2.0k 0.4M 0.3M 0.1k 71 0.3M 14 0.6k 14.8k 1.5k
is 48 0.2M 13.6k5.4k 7.2k 8.5k 9.0k 8.4k 9.8k 8.2k 7.3k 10.6k 9.0k 4.9k 6.7k 8.3k 5.8k 6.2k 81 5.5k 8.6k 8.7k 6.3k 8.4k 5.9k 0.5k 6.9k 6.7k 9.4k 2.5k
it 9,151 265.7M 11.1M0.2k 0.2M 29 3.3k 0.5M 0.6k 4.8M 5.9M 4.1M 6.5M 4.7M 0.4M 1.9M 5.7M 0.1M 54 2.9k 0.4M 8.7k 92 0.4M 0.3M 1.2k 0.2M 24.0k 5.2M 0.4M 3.6M 0.3M 6.1k 0.4M 0.3M 93 54 1.7M 16 0.5k 15.3k 1.5k
ja 4 2.5k 0.2k50 89 0.1k 2 0.1k 97 75 97 99 81 0.1k 64 68 85 75 93 90 68 60 57
lb 4 0 0
lt 1,149 14.7M 0.8M0.1k 0.2M 0.3k 2.0k 0.4M 0.6k 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 76.9k 26 3.9k 0.4M 6.1k 0.4M 77 0.4M 2.7k 0.2M 18.2k 0.4M 0.4M 0.3M 0.3M 1.9k 0.4M 0.3M 1.6k 1.4k 0.3M 16 16.5k 1.4k
lv 1,165 14.9M 0.8M0.1k 0.2M 0.4k 1.8k 0.4M 0.6k 0.4M 0.4M 0.3M 0.4M 0.4M 0.4M 0.4M 0.4M 70.0k 23 4.0k 0.4M 6.5k 0.4M 81 0.4M 2.4k 0.2M 18.8k 0.4M 0.4M 0.3M 0.3M 1.9k 0.4M 0.3M 1.6k 1.3k 0.3M 13 15.8k 1.5k
mk 13 96.3k 4.7k2.6k 0.4k 3.0k 1.1k 3.2k 3.2k 2.6k 2.9k 2.9k 3.1k 3.1k 0.5k 2.8k 1.2k 83 1.2k 2.9k 2.7k 0.9k 1.4k 2.8k 2.7k 1.1k 2.6k 10 2.6k 2.7k 1.8k 1.6k 2.6k 8 3.0k
mt 902 10.4M 0.5M0.2k 0.1M 1.5k 0.3M 0.2M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 77.0k 64 1.6k 0.3M 5.7k 0.3M 0.3M 0.3M 1.0k 5.9k 0.2M 0.2M 0.2M 0.2M 1.1k 0.2M 0.2M 16 4 0.2M 13 5.4k 0.6k
nb 95 0.9M 44.1k14.9k 0.3k 20.0k 24.2k 26.5k 20.0k 28.2k 25.0k 19.8k 28.0k 26.3k 4.7k 1.3k 17.6k 9.0k 24.8k 19.0k 19.5k 1.4k 6.1k 25.7k 18.9k 23.5k 17.0k 0.5k 19.3k 19.5k 1.4k 1.3k 26.7k 12 10.6k
nl 7,687 247.6M 10.2M96 0.2M 0.4k 3.5k 0.4M 0.6k 5.1M 5.7M 4.1M 6.0M 4.4M 0.4M 2.0M 5.3M 0.1M 44 4.6k 0.4M 9.2k 5.7M 88 0.4M 0.4M 3.1k 0.3M 26.6k 0.4M 3.6M 0.3M 6.1k 0.4M 0.3M 1.7k 1.5k 1.8M 13 0.5k 14.9k 1.5k
nl_BE 5 0 0
pl 1,400 18.4M 0.9M0.1k 0.2M 0.4k 1.9k 0.4M 0.6k 0.4M 0.5M 0.4M 0.5M 0.5M 0.4M 0.4M 0.5M 76.4k 40 4.0k 0.4M 6.6k 0.5M 85 0.4M 0.4M 3.1k 0.3M 19.6k 0.4M 0.4M 0.3M 2.6k 0.4M 0.3M 1.7k 1.5k 0.3M 14 17.4k 1.5k
po 1 0 0
pt 6,381 184.6M 7.0M0.1k 0.2M 3.2k 0.4M 0.5k 3.6M 3.8M 3.5M 4.2M 4.0M 0.4M 1.8M 4.0M 0.1M 51 2.8k 0.4M 8.8k 4.0M 0.1k 0.4M 0.4M 1.2k 0.3M 24.5k 4.0M 0.4M 0.3M 6.1k 0.4M 0.3M 16 5 1.6M 12 14.1k 1.5k
ro 747 13.2M 0.5M100 0.2M 0.4k 0.8k 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 63.0k 50 3.4k 0.3M 6.2k 0.3M 0.3M 0.3M 3.0k 0.2M 17.5k 0.3M 0.3M 0.3M 1.2k 0.3M 0.2M 1.7k 1.5k 0.3M 13 17.3k
ru 109 1.4M 79.6k1.0k 0.8k 1.9k 5.5k 9.0k 7.1k 49.8k 8.4k 1.9k 6.5k 16.0k 0.2k 1.0k 2.0k 0.5k 6.6k 92 1.9k 1.9k 10 1.1k 0.5k 6.6k 2.7k 6.5k 1.2k 1.8k 1.6k 7 6 5.5k 7 1.1k 0.3k
sh 2 13.1k 1.1k0.3k 0.6k 0.5k 0.6k 0.3k
sk 1,165 15.5M 0.7M87 0.2M 0.4k 2.0k 0.4M 0.6k 0.4M 0.4M 0.3M 0.5M 0.4M 0.4M 0.4M 0.4M 65.6k 91 3.9k 0.4M 7.2k 0.4M 80 0.4M 0.4M 2.9k 0.3M 20.0k 0.4M 0.4M 0.4M 0.3M 1.9k 0.3M 1.6k 1.4k 0.3M 16 17.1k 1.4k
sl 1,153 14.1M 0.7M0.1k 0.2M 0.4k 1.9k 0.4M 0.5k 0.3M 0.3M 0.3M 0.4M 0.4M 0.4M 0.4M 0.3M 76.1k 26 4.0k 0.4M 7.0k 0.4M 74 0.4M 0.4M 3.0k 0.3M 20.2k 0.4M 0.4M 0.4M 0.3M 1.7k 0.4M 1.7k 1.5k 0.3M 12 16.7k 1.4k
sq 9 85.1k 3.8k1.5k 0.7k 2.0k 14 1.9k 2.0k 2.2k 1.9k 1.9k 2.1k 1.8k 5 2.4k 0.1k 96 1.7k 1.9k 2.1k 17 1.4k 2.0k 2.0k 17 2.0k 7 0.7k 1.9k 2.0k 1.9k 1.7k 15 1.8k
sr 7 59.1k 3.1k1.5k 0.6k 1.8k 4 1.6k 1.9k 1.6k 1.8k 1.7k 1.9k 1.7k 1.9k 73 55 1.5k 1.5k 1.9k 4 1.3k 1.8k 1.9k 5 1.8k 6 0.3k 1.7k 1.8k 2.3k 1.4k 3 1.6k
sv 4,033 71.5M 3.2M90 0.2M 0.4k 2.1k 0.4M 0.6k 1.7M 1.8M 1.5M 1.9M 1.7M 0.4M 1.9M 1.8M 86.5k 37 4.0k 0.4M 9.9k 1.8M 68 0.4M 0.4M 3.0k 0.3M 27.7k 1.9M 0.4M 1.8M 0.3M 5.9k 0.4M 0.4M 2.0k 1.7k 13 15.4k 1.5k
sw 3 0.3k 188 15 11 15 6 17 14 14 17 16 5 7 15 17 17 14 8 14 13 14 15 15 14 7 17 12 16 3 15 14
tc 1 18.3k 1.2k0.6k 0.5k 0.2k 0.5k 0.5k 0.6k 0.5k 0.5k
tr 67 0.7M 33.4k14.0k 0.4k 19.2k 12.8k 19.1k 14.2k 23.7k 19.9k 15.0k 17.2k 21.9k 4.7k 4.4k 15.6k 2.7k 16.2k 17.4k 17.0k 3.4k 5.8k 11.0k 15.9k 18.7k 14.8k 18.5k 1.1k 18.2k 17.7k 2.1k 1.9k 16.5k 14
uk 6 41.3k 2.5k1.5k 0.4k 1.4k 1.6k 0.8k 1.8k 1.4k 1.5k 1.6k 1.6k 0.3k 1.5k 1.5k 1.5k 1.5k 0.7k 1.5k 1.6k 1.5k 0.3k 1.5k 1.4k 1.5k
zh 18 0 0

Note that TMX files only contain unique translation units and, therefore, the number of aligned units is smaller than for the distributions in Moses and XML format. Moses downloads include all non-empty alignment units including duplicates. Token counts for each language also include duplicate sentences and documents.


Disclaimer

Notice and take down policy

Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please: Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.