Home / Query / WordAlign / Wiki     [books] [DGT] [DOGC] [ECB] [EMEA] [EUbooks] [EU] [Europarl] [GNOME] [GlobalVoices] [hren] [JRC] [KDE4/doc] [MBS] [MultiUN] [NCv9/v11] [OO/OO3] [subs/16/18] [ParCor] [PHP] [SETIMES] [SPC] [Tatoeba] [TEP] [TedTalks] [TED] [Tanzil] [Ubuntu] [UN] [WikiSource] [Wikipedia] [WMT]

OpenSubtitles

A collection of documents from http://www.opensubtitles.org/.
IMPORTANT: If you use the OpenSubtitle corpus, please, add a link to http://www.opensubtitles.org/ to your website and to your reports and publications produced with the data! I got the data under this condition!

30 languages, 361 bitexts
total number of files: 20,400
total number of tokens: 149.44M
total number of sentence fragments: 22.27M

Please cite the following article if you use any part of the corpus in your own work:
Jörg Tiedemann, 2009, News from OPUS - A Collection of Multilingual Parallel Corpora with Tools and Interfaces. In N. Nicolov and K. Bontcheva and G. Angelova and R. Mitkov (eds.) Recent Advances in Natural Language Processing (vol V), pages 237-248, John Benjamins, Amsterdam/Philadelphia

Download

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = parsed XML file samples (if they exist)

bg cs da de el en es et fi fr he hr hu is it ja lt lv nl no pl pt pt_br ro ru sk sl sv tr zh
bg viewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
cs ces viewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
da ces ces viewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewda
de ces ces ces viewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces viewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces viewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewen
es ces ces ces ces ces ces viewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
et ces ces ces ces ces ces ces viewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewet
fi ces ces ces ces ces ces ces ces viewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewfi
fr ces ces ces ces ces ces ces ces ces viewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewfr
he ces ces ces ces ces ces ces ces ces ces viewviewviewhe viewviewviewviewviewviewviewviewviewviewviewviewviewviewhe
hr ces ces ces ces ces ces ces ces ces ces viewhr viewviewviewviewviewviewviewviewhr
hu ces ces ces ces ces ces ces ces ces ces ces ces viewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
is ces ces ces ces ces ces ces viewis viewviewviewviewviewviewviewviewviewis
it ces ces ces ces ces ces ces ces ces ces ces ces it viewviewviewviewviewviewviewviewit
bg cs da de el en es et fi fr he hr hu is it ja lt lv nl no pl pt pt_br ro ru sk sl sv tr zh
ja ces ces ces ces ces ces ces ces ces ja viewviewviewviewviewviewviewja
lt ces ces ces ces ces ces ces ces ces ces lt viewviewviewviewviewviewviewviewviewviewlt
lv ces ces ces lv viewviewviewviewlv
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces viewviewviewviewviewviewviewviewviewviewnl
no ces ces ces ces ces ces ces ces ces ces ces ces ces ces no ces ces ces viewviewviewviewviewviewviewviewno
pl ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces viewviewviewviewviewviewviewpl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces viewviewviewviewviewviewviewviewpt
pt_br ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt_br ces ces ces ces ces ces viewviewviewviewviewviewviewpt_br
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces viewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces viewviewviewviewru
sk ces ces ces ces ces ces ces ces ces sk ces ces ces ces viewviewsk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces viewviewviewsl
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces viewviewsv
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces viewtr
zh ces ces ces ces ces ces ces ces ces ces ces zh ces ces ces ces ces ces ces ces ces zh
bg cs da de el en es et fi fr he hr hu is it ja lt lv nl no pl pt pt_br ro ru sk sl sv tr zh

Statistics and TMX/Moses Downloads

Number of files, tokens, and sentences per language (including non-parallel ones if they exist)
Number of sentence alignment units per language pair

Upper-right triangle: download translation memory files (TMX)
Bottom-left triangle: download plain text files (MOSES/GIZA++)

language files tokens sentencesbgcsdadeelenesetfifrhehrhuisitjaltlvnlnoplptpt_brroruskslsvtrzh
bg1,006 7.4M 1.1M0.2M 7.0k 23.7k 0.1M 0.2M 0.2M 26.0k 45.2k 54.0k 7.0k 5.2k 91.5k 3.1k 2.1k 6.5k 1.2k 0.1M 16.7k 3.9k 0.2M 92.9k 0.3M 4.1k 3.4k 0.2M 89.3k 0.2M 1.2k
cs1,659 11.2M 1.8M0.3M 14.8k 42.5k 0.2M 0.3M 0.3M 32.8k 87.4k 99.9k 8.7k 6.5k 0.1M 1.0k 6.3k 4.1k 11.6k 0.2M 21.1k 30.3k 0.3M 0.2M 0.3M 14.9k 20.0k 0.3M 0.2M 0.2M 1.1k
da103 0.6M 89.0k7.2k 15.2k 7.6k 9.9k 23.5k 19.2k 0.9k 10.7k 10.3k 0.3k 5.0k 1.1k 16.6k 11.4k 15.2k 11.7k 2.6k 0.1k 9.2k 22.6k 3.3k
de272 2.1M 0.3M24.4k 44.4k 8.1k 50.2k 66.9k 56.5k 1.4k 31.6k 42.0k 0.2k 2.6k 18.2k 8.4k 24.3k 3.4k 54.9k 35.6k 5.0k 44.8k 28.3k 15.7k 5.7k 1.1k 37.6k 58.8k 30.2k 0.8k
el1,029 7.3M 1.1M0.1M 0.2M 10.2k 52.0k 0.2M 0.2M 12.2k 54.7k 89.3k 4.9k 1.3k 92.7k 11.0k 3.4k 5.7k 0.2M 20.5k 3.5k 0.2M 0.1M 0.2M 23.4k 1.5k 0.2M 0.1M 0.2M 4.0k
en2,317 19.8M 2.7M0.2M 0.4M 24.8k 70.5k 0.2M 0.5M 27.6k 0.1M 0.2M 5.0k 6.6k 0.1M 6.8k 17.2k 5.6k 8.0k 0.3M 65.4k 48.6k 0.3M 0.3M 0.3M 22.3k 2.4k 0.3M 0.3M 0.2M 2.7k
es2,047 15.4M 2.1M0.2M 0.3M 19.7k 58.6k 0.2M 0.5M 18.8k 100.0k 0.2M 5.9k 4.9k 0.1M 5.1k 29.5k 4.3k 8.4k 0.6k 0.3M 37.5k 11.0k 0.4M 0.3M 0.2M 13.9k 2.5k 0.2M 0.2M 0.2M 3.9k
et138 0.9M 0.2M26.9k 34.1k 1.0k 1.5k 12.4k 29.6k 19.5k 5.9k 2.7k 1.2k 2.3k 3.4k 0.9k 17.2k 2.0k 3.8k 23.8k 8.9k 31.9k 0.8k 24.7k 9.6k 12.0k
fi554 3.0M 0.6M46.9k 91.2k 11.1k 32.8k 56.0k 0.1M 0.1M 6.1k 36.6k 1.9k 0.5k 35.0k 9.4k 11.4k 5.9k 52.5k 94.3k 4.5k 81.0k 50.9k 41.0k 7.4k 0.3k 63.8k 0.1M 41.9k 2.4k
fr705 5.4M 0.8M55.9k 0.1M 10.5k 43.7k 91.0k 0.2M 0.2M 2.9k 38.1k 0.7k 2.7k 40.8k 3.5k 18.1k 0.5k 2.6k 0.1M 25.5k 3.4k 0.1M 83.5k 54.7k 5.5k 78.0k 79.8k 61.1k 1.9k
he347 2.5M 68.4k7.1k 8.8k 0.3k 0.2k 4.9k 5.0k 6.0k 1.2k 1.9k 0.7k 2.7k 0.2k 0.1k 1.7k 0.9k 6.1k 3.7k 7.1k 0.2k 0.1k 4.8k 3.2k 6.0k 0.2k
hr38 0.3M 40.1k5.2k 6.6k 2.7k 1.3k 6.8k 4.9k 2.3k 0.6k 2.8k 1.4k 7.2k 1.0k 1.8k 2.5k 6.1k 5.6k 3.0k 5.9k
hu487 3.4M 0.6M96.2k 0.1M 5.2k 18.9k 95.6k 0.1M 0.1M 3.5k 36.2k 42.2k 2.7k 1.4k 1.6k 5.3k 1.0k 6.0k 0.6k 82.5k 15.5k 4.3k 0.1M 75.7k 96.6k 10.6k 2.4k 77.1k 86.6k 64.4k 1.9k
is19 0.1M 23.2k1.0k 8.9k 7.1k 5.4k 9.8k 3.7k 1.6k 4.5k 7.0k 15.3k 1.4k 6.6k 2.5k 0.8k 0.8k 11.0k 2.5k
it86 0.6M 89.1k3.2k 6.6k 1.1k 25.5k 11.4k 18.3k 30.8k 11.7k 18.8k 0.2k 5.6k 4.7k 18.0k 15.0k 14.3k 5.7k 6.0k 6.2k 15.1k 8.1k
ja14 0.1M 16.6k2.1k 4.1k 3.4k 3.4k 5.6k 4.3k 0.5k 1.0k 2.8k 1.3k 5.3k 1.8k 2.0k 3.0k 5.4k
lt39 0.2M 40.8k6.7k 12.1k 5.8k 8.5k 8.5k 0.9k 6.2k 2.7k 0.1k 6.1k 8.0k 0.9k 9.4k 4.9k 9.7k 1.2k 9.9k 5.4k 7.3k 0.4k
lv3 20.8k 3.6k1.2k 0.6k 0.6k 0.6k 1.2k 0.6k 1.1k
nl1,275 9.5M 1.4M0.1M 0.2M 17.0k 56.5k 0.2M 0.3M 0.3M 17.8k 54.5k 0.1M 1.7k 7.3k 86.0k 7.2k 18.5k 2.8k 8.1k 0.6k 37.6k 7.0k 0.2M 0.2M 0.1M 26.1k 0.2M 0.2M 0.1M 1.6k
no329 2.2M 0.3M17.2k 21.7k 11.9k 37.4k 20.8k 68.8k 38.9k 2.0k 0.1M 26.4k 15.8k 16.1k 15.5k 1.3k 0.9k 39.0k 3.6k 40.4k 13.0k 12.8k 2.0k 27.1k 0.1M 19.1k
pl170 1.1M 0.2M3.9k 31.3k 5.1k 3.5k 52.1k 11.2k 3.9k 4.6k 3.5k 0.9k 1.0k 4.4k 1.4k 7.1k 3.6k 11.7k 8.2k 26.4k 1.1k 16.1k 3.9k 10.7k
pt1,537 12.1M 1.8M0.3M 0.3M 15.7k 46.6k 0.2M 0.4M 0.4M 24.8k 85.2k 0.1M 6.2k 1.8k 0.1M 7.0k 14.9k 5.3k 9.7k 0.2M 42.2k 11.9k 0.2M 0.3M 17.8k 1.8k 0.3M 0.2M 0.2M 1.0k
pt_br1,152 8.3M 1.2M97.5k 0.2M 12.0k 29.4k 0.1M 0.3M 0.3M 9.2k 53.2k 87.5k 3.7k 2.5k 79.1k 2.5k 6.0k 1.8k 4.9k 0.2M 13.3k 8.4k 0.3M 0.1M 10.8k 1.9k 0.2M 0.1M 0.1M 3.7k
ro1,224 10.1M 1.5M0.3M 0.3M 2.6k 16.1k 0.2M 0.3M 0.3M 33.6k 42.5k 56.4k 7.2k 6.2k 0.1M 0.8k 6.1k 2.0k 10.0k 1.3k 0.1M 13.1k 27.2k 0.3M 0.1M 11.3k 4.6k 0.3M 90.3k 0.2M 1.2k
ru97 0.7M 0.1M4.2k 15.4k 0.1k 5.9k 24.0k 23.9k 14.2k 0.8k 7.5k 5.7k 0.2k 11.0k 1.3k 27.0k 2.0k 18.5k 11.0k 11.5k 18.4k 11.3k 13.4k 2.8k
sk40 0.2M 32.4k3.5k 20.9k 1.1k 1.6k 2.5k 2.5k 0.3k 0.1k 2.5k 1.1k 1.8k 1.9k 4.8k 4.6k 2.2k
sl1,487 10.1M 1.6M0.2M 0.3M 9.4k 38.9k 0.2M 0.4M 0.3M 26.2k 66.6k 81.2k 4.8k 5.7k 81.2k 0.8k 6.5k 3.0k 10.3k 0.2M 27.9k 16.4k 0.3M 0.2M 0.3M 19.0k 4.8k 0.1M 0.2M 1.2k
sv1,238 8.4M 1.3M92.9k 0.2M 23.7k 61.5k 0.1M 0.3M 0.2M 9.9k 0.1M 82.7k 3.2k 3.1k 90.7k 11.7k 15.4k 5.6k 0.6k 0.2M 0.1M 4.0k 0.2M 0.1M 95.1k 11.8k 0.1M 80.4k 2.1k
tr975 6.2M 1.1M0.2M 0.2M 3.4k 31.0k 0.2M 0.2M 0.2M 12.5k 43.4k 63.2k 6.1k 5.9k 67.9k 2.6k 8.4k 5.4k 7.6k 1.1k 0.1M 19.6k 11.0k 0.2M 0.1M 0.2M 13.8k 2.3k 0.2M 83.9k 2.7k
zh13 76.0k 16.9k1.3k 1.2k 0.8k 4.0k 2.8k 3.9k 2.4k 1.9k 0.2k 2.0k 0.4k 1.6k 1.0k 3.8k 1.2k 2.8k 1.2k 2.1k 2.8k

Note that TMX files only contain unique translation units and, therefore, the number of aligned units is smaller than for the distributions in Moses and XML format. Moses downloads include all non-empty alignment units including duplicates. Token counts for each language also include duplicate sentences and documents.