Home / Query / WordAlign / Wiki     [books] [DGT] [DOGC] [ECB] [EMEA] [EUbooks] [EU] [Europarl] [GNOME] [GlobalVoices] [hren] [JRC] [KDE4/doc] [MBS] [MultiUN] [NCv9/v11] [OO/OO3] [subs/16/18] [ParCor] [PHP] [SETIMES] [SPC] [Tatoeba] [TEP] [TedTalks] [TED] [Tanzil] [Ubuntu] [UN] [WikiSource] [Wikipedia] [WMT]

GlobalVoices

A parallel corpus of news stories from the web site Global Voices compiled and provided by CASMACAT: http://casmacat.eu/corpus/global-voices.html. This version is adjusted for OPUS and is truly multilingual.

38 languages, 635 bitexts
total number of files: 203,307
total number of tokens: 74.85M
total number of sentence fragments: 4.15M

Please cite the following article if you use any part of the corpus in your own work:
Jörg Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

Download

Complete download of aligned documents (in XML): GlobalVoices2015.tar.gz (1.1G )

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = tokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = untokenized corpus files

am ar aym bg bn ca cs da de en eo es fa fil fr he hi hu id it jp km mg mk my nl or pl pt ro ru sr sv sw tr ur zhs zht
am viewviewviewviewviewviewviewviewviewviewviewviewviewam viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewam
ar ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar
aym ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewaym viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaym
bg ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bn ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewbn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn
ca ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca
cs ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
da ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda
de ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde
en ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
eo ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewvieweo viewviewviewviewviewviewviewviewviewviewviewviewvieweo
es ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
fa ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfa
fil ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewfil viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfil
fr ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr
he ces ces ces ces ces ces ces ces ces ces he viewviewviewviewviewviewviewviewviewviewviewviewhe
hi ces ces ces ces ces ces ces ces ces viewviewhi viewviewviewviewviewviewviewviewviewviewviewviewviewviewhi
hu ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
id ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces id viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewid
am ar aym bg bn ca cs da de en eo es fa fil fr he hi hu id it jp km mg mk my nl or pl pt ro ru sr sv sw tr ur zhs zht
it ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces it viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewit
jp ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces jp ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewjp
km ces ces ces ces ces ces ces ces ces ces ces ces km ces ces viewviewviewviewviewviewviewviewviewkm
mg ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mg ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmg
mk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
my ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces my ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewmy
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewnl
or ces ces ces ces ces ces ces ces ces ces ces or ces ces ces ces ces viewviewviewviewor
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewpl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewpt
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces viewviewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewru
sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewsr
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewsv
sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewsw
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewtr
ur ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ces ces ces ces ur
zhs ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zhs ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewzhs
zht ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zht ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zht
am ar aym bg bn ca cs da de en eo es fa fil fr he hi hu id it jp km mg mk my nl or pl pt ro ru sr sv sw tr ur zhs zht

Statistics and TMX/Moses Downloads

Number of files, tokens, and sentences per language (including non-parallel ones if they exist)
Number of sentence alignment units per language pair

Upper-right triangle: download translation memory files (TMX)
Bottom-left triangle: download plain text files (MOSES/GIZA++)
Language ID's, first row: monolingual plain text files (tokenized)
Language ID's, first column: monolingual plain text files (untokenized)

language files tokens sentencesam ar aym bg bn ca cs da de en eo es fa fil fr he hi hu id it jp km mg mk my nl or pl pt ro ru sr sv sw tr ur zhs zht
am 51 33.1k 2.4k87 11 0.2k 27 1 0.1k 1.2k 1.1k 38 0.7k 23 27 13 0.2k 81 0.5k 71 20 20 49 0.2k 0.1k 69 88 11 47 0.2k 0.2k
ar 3,667 1.1M 66.1k89 1.2k 0.7k 18.4k 2.4k 0.7k 0.7k 7.3k 40.4k 47 42.8k 1.7k 0.5k 28.0k 75 0.2k 2.0k 1.2k 9.6k 4.8k 30 20.8k 5.5k 0.1k 3.7k 22 5.5k 8.0k 0.3k 8.5k 2.4k 1.3k 3.0k 0.5k 0.5k 8.0k 8.2k
aym 693 0.2M 11.1k11 1.2k 72 3.7k 0.6k 0.2k 0.2k 0.9k 7.7k 69 9.3k 0.2k 85 5.1k 0.3k 0.1k 2.0k 0.9k 10 6.1k 0.8k 49 0.7k 15 0.9k 1.2k 52 1.8k 0.4k 0.2k 0.6k 0.1k 57 1.3k 1.3k
bg 290 0.1M 5.5k0.7k 72 1.6k 0.5k 0.4k 0.1k 1.1k 4.6k 5 4.8k 74 0.1k 2.9k 0.3k 0.2k 1.2k 0.5k 2.0k 0.8k 74 0.4k 0.9k 0.5k 27 1.7k 0.3k 0.3k 0.3k 0.2k 50 0.6k 0.6k
bn 7,374 4.8M 0.2M0.2k 18.6k 3.8k 1.6k 5.5k 3.6k 1.9k 16.9k 0.1M 0.4k 0.1M 4.5k 1.4k 77.4k 56 0.8k 3.6k 4.5k 22.4k 18.2k 0.4k 72.6k 18.4k 0.6k 12.5k 72 14.4k 15.8k 0.6k 21.8k 5.3k 2.8k 10.2k 1.9k 1.7k 44.4k 44.1k
ca 1,270 0.6M 24.6k27 2.4k 0.6k 0.5k 5.6k 0.6k 0.5k 4.0k 19.6k 70 20.5k 0.7k 54 13.8k 51 0.9k 0.5k 5.6k 3.6k 0.1k 9.6k 1.9k 94 1.7k 15 3.3k 3.6k 0.4k 6.2k 1.3k 0.9k 1.0k 0.5k 0.2k 2.9k 2.8k
cs 471 0.3M 16.0k0.7k 0.2k 0.4k 3.7k 0.6k 0.3k 3.3k 13.9k 0.1k 13.9k 0.1k 55 7.4k 41 0.3k 0.3k 1.7k 2.6k 7.3k 0.9k 22 1.2k 51 2.3k 0.7k 0.3k 4.5k 0.2k 67 0.6k 0.5k 34 1.2k 1.4k
da 321 0.2M 8.6k1 0.8k 0.2k 0.1k 2.0k 0.5k 0.3k 1.4k 6.6k 4 7.4k 0.4k 72 4.6k 16 0.2k 66 2.3k 1.0k 26 3.7k 0.9k 37 0.6k 1.1k 1.3k 1.6k 0.4k 0.6k 0.5k 19 75 0.9k 0.9k
de 2,678 1.4M 72.8k0.1k 7.5k 0.9k 1.1k 17.1k 4.1k 3.3k 1.4k 56.6k 0.4k 56.1k 1.4k 0.4k 34.9k 0.5k 0.1k 2.4k 2.0k 12.6k 9.4k 39 24.3k 5.4k 0.5k 5.9k 11 6.9k 9.2k 1.0k 14.7k 2.5k 1.9k 3.9k 1.1k 0.4k 12.1k 12.1k
en 90,669 21.7M 1.0M1.2k 41.0k 7.8k 4.6k 0.1M 19.9k 14.1k 6.6k 57.4k 2.4k 0.6M 8.7k 2.4k 0.3M 0.7k 1.8k 11.1k 11.5k 80.3k 46.5k 0.8k 0.2M 46.4k 1.7k 31.9k 0.3k 42.3k 58.4k 2.6k 80.7k 16.9k 8.1k 25.7k 3.9k 2.6k 0.1M 0.1M
eo 179 55.9k 3.1k47 69 5 0.4k 78 0.1k 4 0.4k 2.4k 2.4k 89 96 1.5k 6 12 15 0.8k 0.7k 1.1k 0.1k 0.2k 0.4k 0.5k 0.7k 100 0.1k 0.4k 0.4k 0.4k
es 31,389 16.6M 0.8M1.1k 43.6k 9.5k 4.8k 0.1M 20.8k 14.0k 7.4k 56.8k 0.6M 2.4k 7.8k 2.4k 0.3M 0.6k 1.1k 11.6k 9.8k 81.5k 45.6k 0.7k 0.2M 40.9k 1.8k 28.3k 0.4k 44.1k 66.3k 2.4k 84.1k 16.9k 8.1k 23.8k 3.9k 3.1k 0.1M 0.1M
fa 966 0.2M 12.1k38 1.8k 0.2k 76 4.6k 0.7k 0.1k 0.4k 1.4k 8.8k 89 7.9k 0.1k 4.7k 23 81 0.4k 0.1k 2.2k 1.7k 95 5.2k 0.8k 44 1.0k 9 1.0k 1.3k 13 2.0k 0.4k 0.4k 0.9k 99 0.2k 1.3k 1.3k
fil 451 70.4k 3.4k0.5k 89 0.1k 1.4k 54 55 74 0.4k 2.4k 98 2.4k 0.1k 1.8k 0.1k 49 0.6k 0.3k 5 1.7k 0.7k 30 0.4k 0.4k 0.5k 0.6k 99 0.2k 0.2k 31 70 0.6k 0.6k
fr 15,712 8.1M 0.4M0.7k 28.3k 5.1k 2.9k 78.2k 13.9k 7.5k 4.6k 35.2k 0.3M 1.6k 0.3M 4.8k 1.8k 0.4k 0.6k 7.7k 8.2k 57.3k 29.6k 0.6k 0.1M 29.0k 1.0k 22.8k 0.1k 32.4k 39.3k 1.1k 49.3k 12.8k 6.5k 15.8k 2.1k 2.0k 73.9k 73.7k
he 25 14.7k 0.9k76 56 57 41 16 0.5k 0.7k 0.7k 23 0.4k 50 0.1k 0.2k 60 54 16 0.2k 77 0.1k 51 66 64
hi 206 64.6k 2.6k26 0.2k 0.8k 0.1k 1.8k 6 1.1k 81 0.6k 20 20 18 88 81 45 6 15 20 43 53 18 8 50 30 25
hu 513 0.2M 13.8k27 2.0k 0.3k 0.3k 3.6k 0.9k 0.3k 0.2k 2.4k 11.2k 12 11.8k 0.4k 0.1k 7.8k 20 0.4k 3.6k 1.3k 8 6.1k 1.5k 41 1.0k 2.0k 1.2k 98 3.4k 0.9k 0.5k 0.6k 0.1k 0.2k 2.6k 2.5k
id 515 0.2M 13.2k14 1.3k 0.1k 0.2k 4.6k 0.5k 0.3k 66 2.0k 11.6k 15 9.9k 0.1k 49 8.2k 20 0.4k 1.0k 1.3k 4.2k 1.7k 86 1.1k 1.2k 1.1k 71 1.7k 0.3k 0.2k 1.2k 0.1k 0.1k 4.0k 4.0k
it 3,416 2.1M 96.7k0.2k 9.6k 2.0k 1.2k 22.6k 5.6k 1.7k 2.3k 12.7k 81.2k 0.8k 82.3k 2.2k 0.6k 57.8k 50 18 3.7k 1.1k 11.7k 0.1k 38.7k 9.8k 0.3k 8.9k 17 13.2k 14.4k 0.4k 18.9k 5.9k 2.9k 4.3k 0.8k 1.0k 18.7k 18.8k
jp 1,891 0.4M 71.2k85 4.9k 0.9k 0.5k 18.6k 3.6k 2.6k 1.0k 9.6k 47.1k 0.7k 46.1k 1.8k 0.3k 30.0k 0.1k 92 1.3k 1.3k 11.8k 0.2k 23.2k 5.8k 0.6k 4.4k 39 8.6k 8.0k 0.4k 12.2k 3.2k 1.6k 2.7k 0.5k 0.3k 15.9k 15.7k
km 32 63.0k 1.2k30 11 0.4k 0.1k 26 39 0.8k 0.7k 0.1k 5 0.6k 8 0.1k 0.2k 0.5k 0.1k 40 0.1k 28 10 4 0.1k 0.1k
mg 9,294 5.5M 0.2M0.5k 21.0k 6.1k 2.0k 73.3k 9.7k 7.4k 3.7k 24.6k 0.2M 1.1k 0.2M 5.3k 1.7k 0.1M 0.2k 84 6.1k 4.3k 39.1k 23.5k 0.5k 19.1k 0.9k 15.1k 0.2k 21.6k 21.3k 1.6k 39.3k 8.0k 4.3k 12.6k 2.6k 1.8k 37.4k 37.6k
mk 2,272 1.1M 52.8k74 5.5k 0.8k 0.9k 18.6k 1.9k 0.9k 0.9k 5.4k 46.9k 0.1k 41.2k 0.8k 0.7k 29.2k 63 48 1.5k 1.7k 9.9k 5.8k 0.1k 19.3k 95 3.4k 8 4.7k 4.0k 0.1k 6.4k 2.7k 1.1k 2.0k 0.2k 0.5k 6.6k 6.7k
my 110 99.7k 3.2k20 0.1k 49 75 0.6k 96 22 37 0.5k 1.7k 1.8k 47 30 1.0k 54 43 86 0.3k 0.6k 0.9k 96 100 44 97 0.4k 27 89 93 11 13 0.1k 0.1k
nl 2,189 0.7M 36.8k20 3.7k 0.7k 0.4k 12.6k 1.7k 1.2k 0.6k 6.0k 32.3k 0.2k 28.6k 1.0k 0.4k 23.0k 21 6 1.1k 1.1k 9.0k 4.5k 43 15.2k 3.4k 0.1k 33 4.8k 4.4k 0.2k 6.0k 1.7k 0.7k 2.6k 0.5k 0.4k 9.5k 9.4k
or 43 14.7k 0.6k22 15 74 15 51 11 0.3k 0.4k 9 0.1k 15 17 39 0.2k 8 33 24 5 3 4
pl 2,332 1.0M 54.4k52 5.6k 0.9k 0.9k 14.5k 3.3k 2.3k 1.1k 6.9k 42.8k 0.4k 44.6k 1.0k 0.4k 32.7k 0.2k 20 2.0k 1.2k 13.3k 8.6k 21.8k 4.8k 44 4.8k 24 6.5k 0.1k 11.7k 3.7k 1.8k 3.1k 0.3k 0.3k 12.4k 12.2k
pt 5,240 2.3M 0.1M0.2k 8.1k 1.3k 0.5k 16.0k 3.6k 0.7k 1.3k 9.2k 59.0k 0.5k 67.2k 1.4k 0.5k 39.7k 80 45 1.2k 1.2k 14.5k 8.1k 0.1k 21.6k 4.1k 97 4.5k 5 6.6k 97 7.8k 4.0k 1.5k 3.0k 0.3k 0.6k 21.5k 21.3k
ro 75 58.7k 2.7k0.4k 52 28 0.6k 0.5k 0.3k 1.0k 2.6k 2.4k 13 1.1k 98 71 0.4k 0.4k 1.6k 0.1k 0.2k 0.1k 97 1.3k 39 31 98 0.2k 73 79
ru 3,555 2.0M 0.1M0.1k 8.6k 1.8k 1.8k 22.0k 6.3k 4.5k 1.6k 14.9k 82.1k 0.7k 85.4k 2.1k 0.6k 49.9k 0.1k 56 3.4k 1.7k 19.2k 12.4k 30 39.8k 6.5k 0.4k 6.1k 3 11.8k 7.9k 1.3k 4.1k 2.0k 4.2k 1.3k 0.7k 12.2k 12.4k
sr 1,729 0.4M 20.9k73 2.5k 0.4k 0.3k 5.4k 1.3k 0.2k 0.4k 2.5k 17.1k 100 17.0k 0.4k 0.1k 12.9k 18 0.9k 0.3k 5.9k 3.2k 10 8.1k 2.7k 27 1.7k 3.7k 4.0k 39 4.1k 0.7k 0.9k 0.1k 0.3k 5.2k 5.2k
sv 341 0.2M 9.4k1.3k 0.2k 0.3k 2.8k 0.9k 68 0.6k 1.9k 8.2k 0.1k 8.2k 0.4k 0.2k 6.5k 51 0.5k 0.2k 2.9k 1.6k 4.3k 1.1k 90 0.7k 1.8k 1.6k 31 2.1k 0.7k 0.5k 89 73 1.8k 1.9k
sw 2,127 0.6M 30.8k92 3.0k 0.6k 0.3k 10.3k 1.0k 0.6k 0.5k 3.9k 26.0k 0.4k 24.1k 0.9k 0.2k 15.9k 8 0.6k 1.2k 4.3k 2.7k 4 12.8k 2.0k 93 2.7k 3.1k 3.1k 98 4.2k 0.9k 0.5k 0.3k 0.3k 6.2k 6.2k
tr 284 73.8k 4.8k12 0.5k 0.1k 0.2k 2.0k 0.5k 0.5k 19 1.2k 4.0k 3.9k 0.1k 32 2.2k 0.1k 0.1k 0.8k 0.5k 2.7k 0.2k 11 0.5k 0.3k 0.3k 0.2k 1.4k 0.1k 89 0.3k 41 0.5k 0.5k
ur 142 93.1k 4.8k50 0.5k 57 50 1.7k 0.2k 34 75 0.4k 2.7k 3.1k 0.2k 71 2.0k 57 0.2k 0.1k 1.1k 0.3k 1.9k 0.5k 15 0.4k 4 0.3k 0.6k 0.7k 0.3k 73 0.3k 41
zhs 5,383 1.1M 0.4M0.3k 8.2k 1.4k 0.6k 45.3k 2.9k 1.3k 0.9k 12.2k 0.1M 0.4k 0.1M 1.4k 0.6k 74.3k 72 31 2.6k 4.0k 18.9k 16.1k 0.1k 37.7k 6.6k 0.1k 9.6k 12.4k 21.7k 73 12.4k 5.2k 1.8k 6.3k 0.5k 2.6k
zht 5,412 1.0M 0.4M0.2k 8.3k 1.3k 0.6k 45.2k 2.8k 1.4k 0.9k 12.2k 0.1M 0.4k 0.1M 1.4k 0.6k 74.1k 73 26 2.6k 4.0k 18.9k 16.0k 0.1k 37.8k 6.7k 0.1k 9.5k 12.3k 21.4k 79 12.5k 5.2k 1.9k 6.2k 0.5k 2.7k

Note that TMX files only contain unique translation units and, therefore, the number of aligned units is smaller than for the distributions in Moses and XML format. Moses downloads include all non-empty alignment units including duplicates. Token counts for each language also include duplicate sentences and documents.