Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [JW300] [KDE4/doc] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [NCv9/v11/v14] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

GlobalVoices v2018q4

A parallel corpus of news stories from the web site Global Voices compiled and provided by CASMACAT: http://casmacat.eu/corpus/global-voices.html. This version is taken from release v2018q4 and adjusted for OPUS and is truly multilingual.

46 languages, 851 bitexts
total number of files: 235,115
total number of tokens: 100.74M
total number of sentence fragments: 5.41M

Please cite the following article if you use any part of the corpus in your own work:
J. Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

Download

Below you can download data files for all language pairs in different formats and with different kind of annotation (if available). You can click on the various links as explained below. In addition to the files shown on this webpage, OPUS also provides pre-compiled word alignments and phrase tables, bilingual dictionaries, frequency counts, and these files can be found through the resources search form on the top-level website of OPUS.

Release history:

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = tokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = untokenized corpus files

am ar aym bg bn ca cs da de el en eo es fa fil fr he hi hu id it jp km ko ku mg mk my ne nl or pa pl pt ro ru sq sr sv sw tet tr ur yo zhs zht
am viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewam viewviewviewviewviewviewviewviewviewviewviewviewviewviewam
ar ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar
aym ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaym viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaym
bg ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bn ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn
ca ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca
cs ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
da ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda
de ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
eo ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewvieweo viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweo
es ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
fa ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfa
fil ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewfil viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfil
fr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr
he ces ces ces ces ces ces ces ces ces ces ces viewviewhe viewviewviewviewviewviewviewviewviewviewviewviewviewhe
hi ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewhi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhi
hu ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
id ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewid viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewid
it ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewit viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewit
jp ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewjp viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewjp
km ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces km viewviewviewviewviewviewviewviewviewkm
am ar aym bg bn ca cs da de el en eo es fa fil fr he hi hu id it jp km ko ku mg mk my ne nl or pa pl pt ro ru sq sr sv sw tet tr ur yo zhs zht
ko ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ko viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewko
ku ces ces ces ces ces ces ces ku viewviewviewviewku
mg ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mg ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmg
mk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
my ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces my ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewmy
ne ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ne ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewne
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewnl
or ces ces ces ces ces ces ces ces ces ces ces ces ces ces or ces ces ces viewviewviewviewor
pa ces ces ces ces ces ces ces ces ces ces ces ces ces pa ces ces ces ces ces viewviewviewviewviewviewviewviewpa
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewpl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewpt
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewru
sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewsq
sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewsr
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewsv
sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewsw
tet ces ces ces ces ces ces ces ces ces ces ces tet ces ces ces ces viewtet
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewtr
ur ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewur
yo ces ces ces ces ces ces yo ces ces ces ces ces yo
zhs ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zhs ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewzhs
zht ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zht ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zht
am ar aym bg bn ca cs da de el en eo es fa fil fr he hi hu id it jp km ko ku mg mk my ne nl or pa pl pt ro ru sq sr sv sw tet tr ur yo zhs zht

Statistics and TMX/Moses Downloads

Number of files, tokens, and sentences per language (including non-parallel ones if they exist)
Number of sentence alignment units per language pair

Upper-right triangle: download translation memory files (TMX)
Bottom-left triangle: download plain text files (MOSES/GIZA++)
Language ID's, first row: monolingual plain text files (tokenized)
Language ID's, first column: monolingual plain text files (untokenized)

language files tokens sentencesam ar aym bg bn ca cs da de el en eo es fa fil fr he hi hu id it jp km ko ku mg mk my ne nl or pa pl pt ro ru sq sr sv sw tet tr ur yo zhs zht
am 68 46.4k 3.2k0.1k 12 0.2k 28 2 0.1k 0.5k 1.7k 1.6k 39 0.9k 26 28 14 0.2k 93 6 0.9k 73 21 21 52 0.3k 0.3k 73 0.1k 12 49 0.3k 0.2k
ar 4,319 1.6M 91.8k0.2k 1.6k 0.9k 19.9k 2.7k 1.4k 0.8k 10.1k 17.2k 58.3k 0.2k 59.9k 1.9k 0.5k 39.7k 0.1k 0.3k 2.4k 1.8k 16.6k 7.8k 31 0.9k 7 34.9k 6.5k 0.2k 0.3k 5.5k 23 35 6.9k 11.7k 0.6k 18.9k 1.2k 3.1k 1.3k 3.9k 21 0.9k 0.9k 14 9.1k 11.0k
aym 795 0.2M 13.5k12 1.8k 0.1k 4.4k 0.6k 0.2k 0.2k 1.2k 2.6k 8.9k 0.1k 6.5k 0.2k 86 6.0k 0.3k 0.1k 2.8k 1.2k 12 0.2k 7.7k 0.9k 63 78 0.9k 16 1.0k 1.4k 53 2.7k 0.2k 0.5k 0.2k 0.6k 15 0.2k 0.1k 1.5k 1.5k
bg 324 0.1M 6.8k1.0k 0.1k 1.8k 0.5k 0.5k 0.1k 1.2k 1.6k 5.7k 54 5.9k 77 0.1k 3.4k 10 0.3k 0.2k 1.7k 0.6k 82 2.8k 1.0k 75 7 0.5k 1.0k 0.7k 62 2.5k 98 0.3k 0.3k 0.4k 0.2k 63 0.7k 0.7k
bn 7,752 5.2M 0.2M0.2k 21.5k 4.8k 1.9k 5.7k 3.9k 1.9k 18.2k 21.7k 0.1M 0.6k 0.1M 4.7k 1.4k 81.5k 69 1.0k 3.7k 4.8k 25.5k 3.4k 0.4k 2.6k 91.1k 19.5k 0.7k 0.7k 13.4k 73 22 14.7k 17.1k 0.7k 26.6k 2.8k 5.6k 2.8k 10.8k 21 2.3k 2.2k 45.2k 45.5k
ca 1,342 0.6M 26.4k32 2.9k 0.7k 0.5k 6.0k 0.7k 0.6k 4.4k 5.7k 6.9k 0.1k 7.3k 0.7k 55 14.5k 52 1.1k 0.6k 6.0k 4.1k 0.1k 0.4k 10.3k 2.2k 0.1k 13 1.7k 16 9 3.6k 3.8k 0.5k 7.1k 0.1k 1.3k 0.9k 1.0k 0.5k 0.2k 1.4k 1.4k
cs 583 0.4M 21.3k1.5k 0.2k 0.5k 4.2k 0.7k 0.3k 4.0k 4.8k 18.1k 0.2k 17.7k 0.1k 56 10.4k 42 20 0.4k 0.4k 3.5k 3.2k 0.2k 9.4k 1.2k 76 67 1.7k 52 16 2.6k 2.0k 0.4k 6.9k 69 0.3k 68 0.7k 15 0.6k 60 1.6k 2.3k
da 329 0.2M 9.1k3 0.9k 0.3k 0.1k 2.1k 0.6k 0.3k 1.5k 1.7k 7.0k 5 7.6k 0.4k 74 4.8k 17 0.2k 67 2.5k 1.0k 27 0.2k 3.8k 1.0k 53 0.6k 1.2k 1.4k 2.0k 0.2k 0.4k 0.6k 0.5k 20 78 1.0k 1.0k
de 3,042 1.8M 90.7k0.1k 10.7k 1.3k 1.3k 19.4k 4.6k 4.1k 1.6k 16.6k 70.5k 0.6k 66.8k 1.4k 0.4k 43.5k 0.5k 0.2k 2.7k 2.4k 17.7k 11.6k 40 1.0k 33.4k 6.6k 0.7k 0.3k 7.3k 12 11 8.3k 11.5k 1.4k 21.9k 1.2k 2.9k 1.9k 4.1k 87 1.3k 0.6k 13.3k 14.3k
el 5,319 2.8M 0.1M0.5k 18.5k 2.8k 1.7k 23.3k 5.9k 5.0k 1.8k 17.5k 0.1M 0.9k 88.9k 1.7k 0.7k 70.2k 0.3k 0.2k 3.2k 2.5k 28.4k 13.5k 70 1.7k 7 50.2k 8.6k 0.5k 0.9k 8.8k 39 0.5k 10.5k 15.6k 1.4k 35.8k 0.9k 3.7k 2.0k 4.6k 82 1.8k 1.2k 0.1k 10.7k 14.4k
en 95,020 26.3M 1.2M1.8k 63.1k 9.7k 6.0k 0.1M 7.2k 18.9k 7.3k 74.3k 0.1M 3.3k 0.4M 9.3k 2.5k 0.2M 1.0k 2.4k 14.6k 15.3k 0.1M 8.6k 0.8k 8.9k 33 0.3M 52.5k 2.4k 2.7k 40.8k 0.3k 1.0k 48.9k 85.5k 4.3k 0.2M 5.7k 19.0k 8.4k 30.3k 0.3k 7.5k 3.9k 0.1k 0.1M 0.1M
eo 223 78.9k 4.3k0.2k 0.2k 56 0.6k 0.1k 0.2k 5 0.7k 1.0k 3.5k 73 90 97 2.0k 7 32 44 1.0k 0.8k 57 1.5k 0.2k 29 0.3k 0.4k 0.6k 61 1.1k 6 0.1k 0.1k 0.5k 35 9 0.4k 0.4k
es 36,037 21.5M 1.0M1.7k 64.0k 7.0k 6.2k 0.1M 7.7k 18.5k 7.9k 70.1k 94.2k 0.4M 79 8.4k 2.5k 56.2k 0.9k 1.6k 15.1k 13.5k 0.1M 6.9k 0.7k 8.8k 22 0.1M 47.3k 2.4k 2.6k 37.0k 0.4k 1.0k 17.9k 96.1k 4.2k 20.9k 5.2k 19.8k 8.4k 29.2k 0.4k 7.1k 4.4k 0.1k 87.6k 87.0k
fa 982 0.3M 12.8k44 2.1k 0.3k 84 5.2k 0.7k 0.1k 0.4k 1.5k 1.9k 10.3k 97 9.0k 0.1k 5.1k 24 0.1k 0.4k 0.1k 2.3k 1.8k 96 0.1k 5.8k 0.9k 46 7 1.0k 10 1.1k 1.6k 14 2.4k 95 0.4k 0.4k 0.9k 0.2k 0.2k 1.4k 1.3k
fil 455 72.1k 3.5k0.6k 0.1k 0.1k 1.5k 59 58 84 0.5k 0.8k 2.7k 0.1k 2.7k 0.1k 1.8k 0.1k 50 0.6k 0.3k 6 37 1.9k 0.7k 31 0.4k 0.4k 0.5k 0.6k 39 0.1k 0.2k 0.2k 32 71 0.6k 0.6k
fr 17,720 11.0M 0.5M1.0k 42.2k 6.5k 3.6k 86.3k 15.1k 10.8k 5.0k 45.7k 74.1k 0.2M 2.2k 59.0k 5.5k 2.0k 0.5k 1.1k 9.6k 10.5k 32.5k 3.8k 0.6k 5.6k 20 0.2M 32.7k 1.4k 1.3k 28.7k 0.1k 0.7k 36.9k 59.0k 2.5k 97.0k 3.2k 14.1k 6.6k 18.5k 0.2k 4.0k 2.7k 0.1k 78.3k 87.0k
he 33 20.4k 1.3k0.2k 79 59 42 17 0.5k 0.3k 1.1k 1.0k 24 0.5k 0.2k 0.1k 0.4k 64 55 33 0.2k 81 0.4k 52 61 95 7 0.1k 0.1k
hi 227 83.7k 3.3k30 0.4k 10 1.0k 21 0.2k 0.3k 2.6k 9 1.7k 0.1k 1.2k 21 37 0.2k 0.2k 0.6k 56 10 34 15 16 11 0.1k 0.2k 0.5k 15 19 9 45 51 55 38 0.1k
hu 604 0.3M 17.6k30 2.5k 0.4k 0.4k 4.0k 1.1k 0.4k 0.3k 2.8k 3.4k 15.4k 34 15.8k 0.5k 0.1k 10.1k 22 0.5k 4.5k 1.6k 9 0.4k 8.1k 1.8k 56 1.2k 12 2.1k 1.7k 0.1k 4.8k 0.3k 0.9k 0.5k 0.6k 0.2k 0.2k 2.7k 2.9k
id 627 0.3M 17.8k17 1.9k 0.2k 0.2k 5.1k 0.6k 0.4k 73 2.5k 2.7k 16.0k 56 14.2k 0.2k 58 10.9k 41 0.6k 2.1k 2.2k 0.2k 7.5k 2.0k 0.1k 62 1.5k 1.4k 2.0k 0.1k 3.3k 0.2k 0.4k 0.2k 1.2k 49 0.2k 0.2k 4.7k 4.5k
it 4,524 3.4M 0.1M0.3k 17.6k 3.1k 1.8k 27.1k 6.3k 3.6k 2.6k 18.5k 29.8k 0.1M 1.1k 0.1M 2.5k 0.7k 34.1k 0.2k 0.2k 4.7k 2.3k 0.7k 0.1k 3.1k 24 62.6k 12.4k 0.4k 0.9k 12.6k 18 0.6k 16.0k 25.2k 1.1k 43.1k 1.4k 6.4k 3.0k 5.6k 19 2.2k 1.6k 96 20.4k 26.2k
jp 2,327 0.5M 95.3k0.1k 8.3k 1.3k 0.6k 3.6k 4.3k 3.4k 1.1k 12.2k 14.2k 9.2k 0.9k 7.2k 2.0k 0.4k 4.0k 0.1k 0.2k 1.7k 2.3k 0.7k 0.2k 1.3k 6 30.1k 0.3k 0.6k 0.6k 5.3k 40 63 9.4k 10.3k 0.6k 17.4k 1.1k 3.4k 1.6k 3.1k 0.7k 0.6k 17.2k 18.6k
km 32 63.0k 1.2k34 15 0.5k 0.1k 27 44 75 0.8k 0.8k 0.1k 7 0.6k 9 0.2k 0.2k 0.5k 0.1k 42 0.1k 32 11 5 0.1k 0.1k
ko 391 0.2M 14.0k6 1.0k 0.2k 91 2.7k 0.4k 0.2k 0.2k 1.1k 1.8k 9.4k 60 9.3k 0.1k 41 5.9k 0.5k 0.2k 3.2k 1.4k 5.2k 0.8k 0.1k 6 1.1k 30 1.0k 1.0k 61 2.5k 0.1k 0.4k 0.2k 0.5k 57 0.2k 2.5k 2.8k
ku 4 3.9k 827 7 36 25 22 26 6 12 4 6 6
mg 15,187 9.5M 0.4M0.9k 37.2k 8.2k 2.9k 96.7k 10.8k 9.8k 4.0k 35.2k 52.7k 0.4M 1.6k 0.1M 6.2k 2.0k 0.2M 0.5k 0.6k 8.5k 7.8k 65.7k 31.7k 0.5k 5.5k 13 27.8k 1.2k 2.2k 20.2k 0.2k 0.6k 26.0k 35.8k 2.8k 83.4k 3.8k 9.7k 4.5k 16.7k 0.3k 5.0k 2.8k 13 42.2k 48.0k
mk 2,466 1.2M 60.2k81 7.0k 1.0k 1.0k 20.7k 2.3k 1.3k 1.1k 6.9k 9.1k 55.4k 0.2k 49.9k 1.0k 0.8k 34.3k 68 65 1.9k 2.1k 13.0k 0.3k 0.1k 0.9k 29.6k 0.1k 69 3.7k 9 18 5.0k 4.9k 0.3k 9.1k 1.8k 2.8k 1.1k 2.0k 0.5k 0.5k 6.8k 7.4k
my 126 0.1M 4.2k21 0.2k 70 81 0.8k 0.1k 79 57 0.7k 0.6k 2.5k 2.6k 55 35 1.5k 55 10 62 0.1k 0.4k 0.7k 0.1k 1.3k 0.1k 0.1k 100 98 13 0.8k 8 28 90 0.1k 26 14 0.1k 0.2k
ne 169 0.2M 3.1k0.4k 98 9 0.8k 14 79 0.3k 1.1k 2.9k 54 2.9k 8 1.5k 44 78 1.0k 0.7k 9 2.4k 81 83 51 71 0.4k 39 1.2k 19 47 29 59 13 0.2k
nl 2,608 0.9M 47.7k22 5.9k 1.0k 0.5k 14.2k 1.8k 1.8k 0.6k 7.7k 9.3k 42.8k 0.3k 38.8k 1.1k 0.4k 30.1k 34 19 1.2k 1.5k 13.2k 5.6k 51 1.2k 21.2k 3.9k 0.1k 0.1k 34 31 5.7k 6.8k 0.6k 11.1k 0.6k 2.2k 0.7k 2.9k 0.9k 0.5k 10.5k 12.1k
or 43 14.7k 0.6k26 17 82 16 54 14 41 0.3k 0.4k 11 0.1k 17 18 42 0.2k 10 36 25 6 4 5
pa 57 58.6k 1.2k46 27 10 17 15 0.5k 1.1k 1.1k 0.7k 19 12 0.6k 69 34 0.7k 21 58 32 28 97 0.7k 23 5 25 4 98
pl 2,640 1.1M 62.7k60 7.3k 1.1k 1.1k 15.5k 3.8k 2.7k 1.3k 8.7k 11.0k 51.2k 0.5k 18.8k 1.2k 0.4k 38.6k 0.2k 0.1k 2.2k 1.5k 16.7k 9.8k 1.1k 4 27.3k 5.3k 0.1k 84 6.0k 26 34 8.7k 0.3k 15.3k 0.5k 3.9k 1.8k 3.4k 0.6k 0.3k 13 12.7k 13.6k
pt 6,014 3.1M 0.1M0.3k 12.5k 1.6k 0.7k 18.5k 4.0k 2.1k 1.4k 12.1k 16.6k 92.0k 0.7k 0.1M 1.8k 0.5k 62.5k 89 0.3k 1.8k 2.1k 26.5k 10.9k 0.1k 1.1k 6 38.0k 5.2k 0.1k 0.4k 7.2k 6 0.1k 9.2k 0.6k 24.9k 1.3k 4.3k 1.6k 3.9k 0.3k 1.7k 1.0k 54 22.7k 26.9k
ro 125 0.1M 4.8k0.6k 57 65 0.8k 0.5k 0.4k 1.4k 1.4k 4.5k 63 4.4k 15 2.6k 0.1k 0.1k 1.2k 0.7k 64 6 2.9k 0.3k 23 46 0.6k 0.3k 0.6k 2.4k 68 32 99 0.2k 32 0.2k 0.5k
ru 5,709 3.8M 0.2M0.3k 20.0k 3.0k 2.6k 28.5k 7.4k 7.2k 2.1k 22.9k 37.6k 0.2M 1.1k 22.0k 2.6k 0.7k 0.1M 0.4k 0.6k 5.1k 3.5k 45.1k 18.2k 37 2.6k 88.3k 9.7k 0.8k 1.3k 11.7k 4 0.7k 15.9k 26.0k 2.5k 1.3k 5.7k 2.2k 6.9k 0.1k 3.1k 1.3k 0.1k 15.5k 23.2k
sq 305 0.1M 6.8k1.3k 0.2k 0.1k 3.0k 0.1k 73 0.2k 1.3k 0.9k 6.1k 6 5.5k 0.1k 45 3.4k 18 0.4k 0.2k 1.5k 1.1k 0.1k 4.0k 1.9k 8 0.7k 0.6k 1.4k 1.4k 0.5k 0.2k 0.2k 38 91 2.1k 2.0k
sr 1,837 0.5M 24.4k84 3.3k 0.6k 0.3k 6.1k 1.4k 0.3k 0.5k 3.1k 4.0k 20.3k 0.1k 21.0k 0.5k 0.1k 15.0k 21 1.0k 0.4k 6.8k 3.6k 14 0.5k 10.4k 3.0k 31 25 2.4k 4.1k 4.6k 86 6.1k 0.6k 0.7k 1.0k 0.3k 0.3k 5.3k 5.4k
sv 350 0.2M 9.7k1.4k 0.2k 0.4k 3.0k 1.0k 73 0.6k 2.0k 2.1k 8.8k 0.1k 8.8k 0.5k 0.2k 6.9k 53 9 0.6k 0.2k 3.1k 1.7k 0.2k 4.7k 1.2k 97 0.7k 1.9k 1.7k 32 2.3k 0.3k 0.8k 0.5k 90 74 1.9k 2.0k
sw 2,307 0 37.2k0.1k 4.2k 0.7k 0.4k 11.5k 1.1k 0.8k 0.6k 4.4k 4.9k 32.3k 0.5k 30.9k 1.0k 0.2k 19.5k 62 50 0.7k 1.3k 5.9k 3.3k 6 0.5k 17.6k 2.2k 0.2k 54 3.1k 27 3.6k 4.3k 0.1k 7.3k 0.2k 1.1k 0.6k 32 0.5k 0.4k 31 6.7k 7.0k
tet 15 14.7k 0.7k22 15 22 15 90 84 0.3k 0.4k 0.2k 50 19 0.3k 0.3k 0.1k 32 25
tr 457 0.1M 8.8k14 1.0k 0.2k 0.2k 2.5k 0.5k 0.7k 20 1.4k 1.9k 7.8k 47 7.5k 0.2k 35 4.2k 97 55 0.2k 0.2k 2.3k 0.8k 60 5.2k 0.5k 29 36 0.9k 5 0.7k 1.7k 0.2k 3.3k 39 0.3k 96 0.5k 42 0.5k 1.1k
ur 190 0.1M 6.5k55 1.0k 0.1k 65 2.4k 0.2k 62 84 0.7k 1.3k 4.1k 10 4.6k 0.2k 78 2.8k 8 65 0.3k 0.2k 1.7k 0.6k 0.2k 3.0k 0.6k 17 68 0.6k 5 28 0.3k 1.0k 45 1.3k 97 0.4k 78 0.4k 43 1.0k
yo 4 4.1k 0.2k14 0.1k 0.1k 0.1k 0.1k 98 13 13 55 0.1k 31
zhs 5,567 1.1M 0.4M0.3k 9.8k 1.6k 0.8k 48.1k 1.5k 1.7k 1.0k 13.9k 11.4k 0.1M 0.4k 90.8k 1.6k 0.7k 81.5k 0.1k 40 2.9k 4.8k 21.4k 18.0k 0.1k 2.6k 44.3k 7.2k 0.1k 16 10.9k 4 13.2k 23.9k 0.2k 16.4k 2.2k 5.6k 2.0k 7.0k 0.5k
zht 5,860 1.2M 0.4M0.3k 11.8k 1.7k 0.7k 47.8k 1.5k 2.5k 1.1k 15.0k 15.2k 0.1M 0.5k 90.3k 1.5k 0.7k 90.6k 0.1k 0.1k 3.0k 4.6k 27.4k 19.5k 0.1k 3.0k 50.3k 7.9k 0.2k 0.2k 12.7k 0.1k 14.1k 28.3k 0.5k 24.3k 2.2k 5.7k 2.1k 7.4k 25 1.1k 1.1k

Note that TMX files only contain unique translation units and, therefore, the number of aligned units is smaller than for the distributions in Moses and XML format. Moses downloads include all non-empty alignment units including duplicates. Token counts for each language also include duplicate sentences and documents.