Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [Elhuyar] [EMEA] [EUbooks] [EU] [Europarl] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [JW300] [KDE4/doc] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [NCv9/v11/v14] [Ofis] [OO/OO3] [subs/16/18] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TedTalks] [TED] [Tilde] [Ubuntu] [UN] [UNPC] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

GlobalVoices

A parallel corpus of news stories from the web site Global Voices compiled and provided by CASMACAT: http://casmacat.eu/corpus/global-voices.html. This version is taken from release v2017q3 and adjusted for OPUS and is truly multilingual.

41 languages, 758 bitexts
total number of files: 224,096
total number of tokens: 88.71M
total number of sentence fragments: 4.93M

Please cite the following article if you use any part of the corpus in your own work:
J. Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

Download

Below you can download data files for all language pairs in different formats and with different kind of annotation (if available). You can click on the various links as explained below. In addition to the files shown on this webpage, OPUS also provides pre-compiled word alignments and phrase tables, bilingual dictionaries, frequency counts, and these files can be found through the resources search form on the top-level website of OPUS.

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = tokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = untokenized corpus files

am ar aym bg bn ca cs da de el en eo es fa fil fr he hi hu id it jp km ko mg mk my nl or pl pt ro ru sq sr sv sw tr ur zhs zht
am viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewam viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewam
ar ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar
aym ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaym viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaym
bg ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bn ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn
ca ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca
cs ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
da ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda
de ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
eo ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewvieweo viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweo
es ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
fa ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfa
fil ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewfil viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfil
fr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr
he ces ces ces ces ces ces ces ces ces ces ces viewhe viewviewviewviewviewviewviewviewviewviewviewviewviewviewhe
hi ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewhi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhi
hu ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
id ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewid viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewid
it ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces it viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewit
am ar aym bg bn ca cs da de el en eo es fa fil fr he hi hu id it jp km ko mg mk my nl or pl pt ro ru sq sr sv sw tr ur zhs zht
jp ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces jp viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewjp
km ces ces ces ces ces ces ces ces ces ces ces ces ces ces km ces viewviewviewviewviewviewviewviewviewkm
ko ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ko ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewko
mg ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mg ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmg
mk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
my ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces my ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewmy
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewnl
or ces ces ces ces ces ces ces ces ces ces ces ces ces or ces ces ces ces viewviewviewviewor
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewpl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewpt
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewru
sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewsq
sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewsr
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewsv
sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewsw
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewtr
ur ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewur
zhs ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zhs ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewzhs
zht ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zht ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zht
am ar aym bg bn ca cs da de el en eo es fa fil fr he hi hu id it jp km ko mg mk my nl or pl pt ro ru sq sr sv sw tr ur zhs zht

Statistics and TMX/Moses Downloads

Number of files, tokens, and sentences per language (including non-parallel ones if they exist)
Number of sentence alignment units per language pair

Upper-right triangle: download translation memory files (TMX)
Bottom-left triangle: download plain text files (MOSES/GIZA++)
Language ID's, first row: monolingual plain text files (tokenized)
Language ID's, first column: monolingual plain text files (untokenized)

language files tokens sentencesam ar aym bg bn ca cs da de el en eo es fa fil fr he hi hu id it jp km ko mg mk my nl or pl pt ro ru sq sr sv sw tr ur zhs zht
am 65 43.5k 3.1k0.1k 11 0.2k 27 1 0.1k 0.4k 1.6k 1.5k 38 0.9k 23 27 13 0.2k 81 5 0.8k 71 20 20 49 0.2k 0.2k 68 91 11 47 0.3k 0.2k
ar 4,102 1.4M 82.6k0.1k 1.6k 0.9k 19.4k 2.6k 1.2k 0.8k 8.9k 13.6k 51.8k 0.2k 53.8k 1.8k 0.5k 34.2k 0.1k 0.3k 2.3k 1.7k 12.7k 6.5k 30 0.8k 29.0k 6.0k 0.1k 4.8k 22 6.1k 9.7k 0.5k 14.6k 1.1k 3.0k 1.3k 3.6k 0.7k 0.7k 8.8k 9.3k
aym 782 0.2M 13.2k11 1.6k 0.1k 4.3k 0.6k 0.2k 0.2k 1.2k 2.4k 8.7k 0.1k 11.1k 0.2k 85 5.8k 0.3k 0.1k 2.5k 1.1k 10 0.2k 7.4k 0.9k 62 0.9k 15 0.9k 1.4k 52 2.6k 0.2k 0.5k 0.2k 0.6k 0.2k 99 1.5k 1.5k
bg 323 0.1M 6.8k0.9k 0.1k 1.7k 0.5k 0.4k 0.1k 1.2k 1.4k 5.6k 53 5.8k 74 0.1k 3.4k 9 0.3k 0.2k 1.6k 0.5k 80 2.7k 0.9k 74 0.5k 1.0k 0.7k 27 2.4k 96 0.3k 0.3k 0.4k 0.2k 62 0.7k 0.7k
bn 7,686 3.1M 0.2M0.2k 20.0k 4.4k 1.7k 5.6k 3.8k 1.9k 17.9k 19.9k 0.1M 0.6k 0.1M 4.6k 1.4k 79.9k 68 0.9k 3.7k 4.7k 23.6k 19.4k 0.4k 2.5k 80.9k 19.1k 0.7k 13.2k 72 14.5k 16.2k 0.7k 24.5k 2.8k 5.6k 2.8k 10.7k 2.1k 2.1k 45.0k 44.7k
ca 1,326 0.6M 26.0k27 2.7k 0.6k 0.5k 5.7k 0.7k 0.6k 4.3k 5.2k 20.9k 0.1k 21.3k 0.7k 54 14.2k 51 1.1k 0.6k 5.7k 4.0k 0.1k 0.4k 10.1k 2.2k 0.1k 1.7k 15 3.6k 3.7k 0.5k 6.9k 0.1k 1.3k 0.9k 1.0k 0.5k 0.2k 3.1k 3.0k
cs 546 0.4M 19.7k1.3k 0.2k 0.4k 3.9k 0.7k 0.3k 3.8k 3.8k 16.6k 0.1k 16.5k 0.1k 55 9.4k 41 7 0.3k 0.4k 2.3k 2.8k 0.1k 8.7k 1.1k 75 1.5k 51 2.5k 1.4k 0.3k 5.9k 67 0.3k 67 0.7k 0.6k 34 1.6k 1.8k
da 328 0.2M 8.9k1 0.8k 0.2k 0.1k 2.0k 0.6k 0.3k 1.4k 1.7k 6.9k 4 7.5k 0.4k 72 4.7k 16 0.2k 66 2.4k 1.0k 26 0.2k 3.8k 1.0k 37 0.6k 1.2k 1.4k 2.0k 0.2k 0.4k 0.6k 0.5k 19 75 1.0k 0.9k
de 2,931 1.6M 84.7k0.1k 9.0k 1.2k 1.2k 18.2k 4.4k 3.8k 1.4k 13.9k 65.7k 0.4k 63.4k 1.4k 0.4k 39.7k 0.5k 0.2k 2.7k 2.3k 14.7k 10.7k 39 0.9k 29.5k 6.0k 0.7k 6.7k 11 7.8k 10.4k 1.2k 19.4k 1.2k 2.9k 1.9k 4.0k 1.2k 0.5k 13.0k 13.1k
el 4,690 2.2M 0.1M0.4k 14.0k 2.4k 1.4k 20.3k 5.3k 3.9k 1.7k 14.2k 88.3k 0.7k 73.1k 1.5k 0.7k 54.0k 0.3k 0.2k 3.1k 2.1k 19.1k 10.5k 68 1.5k 41.2k 7.2k 0.5k 7.7k 38 8.9k 10.7k 1.0k 24.4k 0.9k 3.6k 2.0k 3.9k 1.4k 0.8k 10.0k 10.5k
en 93,756 24.8M 1.1M1.6k 52.6k 8.9k 5.7k 0.1M 21.2k 16.9k 6.9k 66.7k 90.4k 2.9k 0.7M 9.0k 2.5k 0.3M 1.0k 2.3k 13.6k 14.3k 96.7k 55.3k 0.8k 8.1k 0.3M 49.5k 2.3k 37.8k 0.3k 45.3k 70.6k 3.6k 0.1M 5.7k 19.8k 8.4k 29.3k 5.5k 3.5k 0.1M 0.1M
eo 209 68.9k 3.8k0.2k 0.1k 53 0.6k 0.1k 0.1k 4 0.5k 0.7k 3.0k 2.6k 89 96 1.8k 6 31 43 0.9k 0.8k 16 1.3k 0.1k 0.3k 0.4k 0.6k 0.9k 5 100 0.1k 0.5k 34 8 0.4k 0.4k
es 34,634 19.9M 0.9M1.5k 54.7k 11.3k 5.8k 0.1M 21.5k 16.6k 7.5k 64.2k 74.1k 0.7M 2.7k 8.1k 2.5k 0.3M 0.9k 1.5k 14.0k 12.5k 97.4k 54.2k 0.7k 8.2k 0.3M 44.0k 2.3k 34.1k 0.4k 47.3k 79.7k 3.4k 0.1M 5.2k 19.5k 8.3k 27.2k 5.2k 3.9k 0.1M 0.1M
fa 976 0.2M 12.5k38 1.9k 0.2k 76 4.7k 0.7k 0.1k 0.4k 1.4k 1.6k 9.1k 89 8.2k 0.1k 4.9k 23 81 0.4k 0.1k 2.3k 1.7k 95 0.1k 5.5k 0.9k 44 1.0k 9 1.0k 1.4k 13 2.2k 92 0.4k 0.4k 0.9k 98 0.2k 1.4k 1.3k
fil 455 72.1k 3.5k0.5k 89 0.1k 1.4k 54 55 74 0.4k 0.7k 2.5k 98 2.5k 0.1k 1.8k 0.1k 49 0.6k 0.3k 5 36 1.7k 0.7k 30 0.4k 0.4k 0.5k 0.6k 38 99 0.2k 0.2k 31 70 0.6k 0.6k
fr 16,897 10.0M 0.4M0.9k 34.6k 5.9k 3.4k 80.7k 14.4k 9.5k 4.7k 40.2k 54.9k 0.3M 1.8k 0.3M 5.0k 1.8k 0.5k 1.0k 8.9k 9.9k 66.4k 34.2k 0.6k 5.1k 0.2M 30.6k 1.3k 26.3k 0.1k 34.2k 47.7k 1.8k 72.2k 3.2k 13.9k 6.6k 17.1k 2.8k 2.3k 77.1k 77.5k
he 33 20.4k 1.3k0.1k 71 57 41 16 0.5k 0.3k 1.0k 0.9k 23 0.5k 0.2k 0.1k 0.4k 60 54 32 0.2k 77 0.4k 51 60 94 6 0.1k 0.1k
hi 223 58.7k 3.2k26 0.3k 9 0.9k 7 0.2k 0.2k 2.3k 6 1.5k 81 1.0k 20 29 93 0.1k 0.5k 32 9 12 15 67 0.2k 0.4k 13 18 8 44 4 50 36 84
hu 577 0.3M 16.4k27 2.3k 0.3k 0.3k 3.8k 1.1k 0.3k 0.2k 2.7k 3.2k 13.7k 31 14.2k 0.4k 0.1k 9.0k 20 0.5k 4.1k 1.5k 8 0.4k 7.4k 1.7k 55 1.1k 2.0k 1.2k 0.1k 4.2k 0.3k 0.9k 0.5k 0.6k 0.1k 0.2k 2.7k 2.7k
id 599 0.3M 16.4k14 1.7k 0.1k 0.2k 4.8k 0.6k 0.4k 66 2.4k 2.1k 14.4k 47 12.6k 0.1k 49 10.0k 29 0.5k 1.6k 1.8k 100 6.1k 2.0k 0.1k 1.4k 1.3k 1.7k 95 2.8k 0.2k 0.4k 0.2k 1.2k 0.2k 0.2k 4.6k 4.3k
it 3,869 2.6M 0.1M0.2k 12.8k 2.5k 1.6k 23.9k 5.7k 2.4k 2.4k 14.8k 19.3k 97.9k 0.9k 98.5k 2.3k 0.6k 67.0k 0.2k 93 4.1k 1.6k 13.6k 0.1k 2.5k 48.9k 10.5k 0.3k 10.7k 17 13.9k 17.7k 0.6k 26.8k 1.4k 6.3k 2.9k 4.9k 1.4k 1.3k 19.9k 20.2k
jp 2,161 0.5M 85.6k85 6.6k 1.1k 0.5k 19.8k 4.1k 2.9k 1.0k 10.9k 10.7k 56.0k 0.8k 54.9k 1.8k 0.3k 34.6k 0.1k 0.2k 1.5k 1.9k 13.7k 0.2k 1.1k 26.0k 6.5k 0.6k 5.0k 39 9.0k 8.6k 0.5k 14.2k 1.0k 3.4k 1.6k 2.8k 0.6k 0.5k 16.6k 16.5k
km 32 37.4k 1.2k30 11 0.4k 0.1k 26 39 69 0.8k 0.7k 0.1k 5 0.6k 8 0.1k 0.2k 0.5k 0.1k 40 0.1k 28 10 4 0.1k 0.1k
ko 374 0.2M 13.0k5 0.8k 0.2k 82 2.5k 0.4k 0.1k 0.2k 0.9k 1.5k 8.2k 17 8.3k 0.1k 36 5.2k 0.4k 100 2.5k 1.1k 4.8k 0.7k 0.1k 0.8k 0.9k 0.8k 21 1.9k 0.1k 0.4k 0.2k 0.4k 34 0.2k 2.4k 2.5k
mg 12,051 7.6M 0.3M0.8k 29.3k 7.5k 2.7k 81.9k 10.2k 8.8k 3.8k 30.0k 41.8k 0.3M 1.3k 0.3M 5.5k 1.8k 0.2M 0.4k 0.5k 7.5k 6.1k 49.5k 26.3k 0.5k 4.9k 22.4k 1.2k 18.7k 0.2k 23.6k 28.3k 2.4k 65.7k 2.9k 9.5k 4.5k 15.1k 3.8k 2.6k 41.3k 42.0k
mk 2,377 1.1M 56.4k74 6.1k 0.9k 0.9k 19.2k 2.2k 1.1k 1.0k 6.0k 7.3k 49.9k 0.1k 44.4k 0.9k 0.7k 30.8k 63 36 1.7k 2.0k 10.6k 6.6k 0.1k 0.8k 22.7k 0.1k 3.5k 8 4.8k 4.2k 0.1k 7.2k 1.8k 2.7k 1.1k 2.0k 0.3k 0.5k 6.8k 6.9k
my 123 47.2k 4.0k20 0.2k 62 75 0.7k 0.1k 75 37 0.7k 0.5k 2.3k 2.4k 47 30 1.3k 54 9 57 0.1k 0.3k 0.6k 0.1k 1.2k 0.1k 100 98 96 12 0.7k 7 27 89 0.1k 25 13 0.1k 0.1k
nl 2,479 0.9M 44.1k20 4.9k 1.0k 0.5k 13.4k 1.7k 1.5k 0.6k 6.8k 7.8k 38.4k 0.3k 34.6k 1.0k 0.4k 26.7k 32 12 1.1k 1.4k 10.9k 5.1k 43 0.8k 19.0k 3.5k 0.1k 33 5.3k 5.6k 0.4k 9.0k 0.6k 2.1k 0.7k 2.8k 0.8k 0.5k 10.1k 10.3k
or 43 8.6k 0.6k22 15 74 15 51 11 38 0.3k 0.4k 9 0.1k 15 17 39 0.2k 8 33 24 5 3 4
pl 2,450 1.1M 58.2k52 6.2k 0.9k 1.0k 14.7k 3.7k 2.5k 1.2k 7.9k 9.0k 45.9k 0.4k 47.8k 1.0k 0.4k 34.6k 0.2k 67 2.0k 1.3k 14.0k 9.0k 1.0k 23.8k 4.8k 100 5.3k 24 7.1k 0.2k 12.6k 0.5k 3.9k 1.8k 3.1k 0.4k 0.3k 12.4k 12.4k
pt 5,653 2.7M 0.1M0.2k 9.8k 1.4k 0.7k 16.4k 3.7k 1.4k 1.4k 10.5k 10.8k 71.4k 0.6k 80.6k 1.5k 0.5k 48.2k 80 0.2k 1.2k 1.7k 17.8k 8.7k 0.1k 0.8k 28.7k 4.2k 97 5.6k 5 7.2k 0.2k 14.2k 1.3k 4.1k 1.6k 3.4k 0.5k 0.7k 21.9k 22.4k
ro 109 87.3k 4.0k0.6k 52 28 0.7k 0.5k 0.3k 1.2k 1.0k 3.6k 3.5k 13 1.8k 0.1k 96 0.6k 0.5k 21 2.5k 0.1k 17 0.4k 0.2k 0.2k 1.7k 63 31 98 0.2k 6 0.2k 0.2k
ru 4,822 3.0M 0.2M0.2k 14.8k 2.7k 2.4k 25.0k 7.0k 6.0k 2.0k 19.7k 24.8k 0.1M 0.9k 0.1M 2.3k 0.6k 73.2k 0.4k 0.5k 4.2k 2.8k 27.2k 14.5k 30 1.9k 66.7k 7.2k 0.7k 9.2k 3 12.7k 14.4k 1.8k 1.3k 5.4k 2.2k 5.5k 2.1k 0.9k 14.6k 15.2k
sq 305 0.1M 6.8k1.2k 0.2k 99 2.8k 0.1k 68 0.2k 1.2k 0.9k 5.8k 5 5.3k 96 38 3.3k 16 0.3k 0.2k 1.4k 1.1k 0.1k 2.9k 1.8k 7 0.6k 0.5k 1.3k 1.3k 0.5k 0.2k 0.2k 37 89 2.1k 2.0k
sr 1,821 0.5M 24.0k72 3.1k 0.5k 0.3k 5.7k 1.3k 0.3k 0.4k 2.9k 3.7k 20.0k 100 19.8k 0.4k 0.1k 14.0k 18 0.9k 0.4k 6.3k 3.4k 10 0.4k 9.6k 2.7k 27 2.2k 3.9k 4.2k 69 5.5k 0.5k 0.7k 1.0k 0.3k 0.3k 5.3k 5.4k
sv 348 0.2M 9.7k1.3k 0.2k 0.3k 2.8k 0.9k 68 0.6k 1.9k 2.0k 8.5k 0.1k 8.4k 0.4k 0.2k 6.6k 51 8 0.5k 0.2k 3.0k 1.6k 0.2k 4.5k 1.1k 90 0.7k 1.8k 1.6k 31 2.2k 0.2k 0.7k 0.5k 89 73 1.9k 1.9k
sw 2,254 0 35.0k95 3.6k 0.6k 0.4k 10.9k 1.0k 0.7k 0.5k 4.1k 4.0k 29.7k 0.5k 27.5k 0.9k 0.2k 17.2k 60 44 0.7k 1.3k 4.9k 2.8k 4 0.4k 15.3k 2.0k 0.1k 2.8k 3.2k 3.4k 98 5.7k 0.2k 1.0k 0.5k 0.4k 0.4k 6.6k 6.5k
tr 367 0.1M 6.5k12 0.7k 0.2k 0.2k 2.2k 0.5k 0.6k 19 1.2k 1.4k 5.5k 44 5.3k 99 32 2.9k 94 4 0.1k 0.2k 1.4k 0.6k 34 3.8k 0.3k 25 0.8k 0.4k 0.5k 0.2k 2.1k 37 0.3k 89 0.4k 41 0.5k 0.5k
ur 174 0.1M 5.9k50 0.8k 100 62 2.2k 0.2k 34 75 0.5k 0.9k 3.6k 8 4.0k 0.2k 71 2.3k 6 57 0.3k 0.2k 1.3k 0.5k 0.2k 2.6k 0.5k 15 0.5k 4 0.3k 0.7k 21 1.0k 90 0.3k 73 0.4k 41
zhs 5,536 1.1M 0.4M0.3k 9.0k 1.5k 0.7k 45.8k 3.1k 1.6k 1.0k 13.1k 10.2k 0.1M 0.4k 0.1M 1.4k 0.6k 77.5k 0.1k 37 2.8k 4.6k 20.0k 16.8k 0.1k 2.5k 41.6k 6.8k 0.1k 10.2k 12.5k 22.1k 0.2k 14.8k 2.1k 5.3k 1.9k 6.6k 0.5k 14.3k
zht 5,610 1.1M 0.4M0.2k 9.4k 1.5k 0.7k 45.5k 3.0k 1.8k 1.0k 13.2k 10.7k 0.1M 0.4k 0.1M 1.4k 0.6k 77.8k 0.1k 97 2.7k 4.3k 20.4k 16.7k 0.1k 2.5k 42.4k 6.9k 0.1k 10.3k 12.5k 22.6k 0.2k 15.5k 2.0k 5.4k 2.0k 6.5k 0.5k 15.2k

Note that TMX files only contain unique translation units and, therefore, the number of aligned units is smaller than for the distributions in Moses and XML format. Moses downloads include all non-empty alignment units including duplicates. Token counts for each language also include duplicate sentences and documents.