Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CCMatrix] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELITR_ECA] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [KDE4/doc] [liv4ever] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [MT560] [NC] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

OpenSubtitles

A collection of documents from http://www.opensubtitles.org/.
IMPORTANT: If you use the OpenSubtitle corpus, please, add a link to http://www.opensubtitles.org/ to your website and to your reports and publications produced with the data! I got the data under this condition!

30 languages, 357 bitexts
total number of files: 20,400
total number of tokens: 149.44M
total number of sentence fragments: 22.27M

Please cite the following article if you use any part of the corpus in your own work:
J. Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

Download

Below you can download data files for all language pairs in different formats and with different kind of annotation (if available). You can click on the various links as explained below. In addition to the files shown on this webpage, OPUS also provides pre-compiled word alignments and phrase tables, bilingual dictionaries, frequency counts, and these files can be found through the resources search form on the top-level website of OPUS.

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = tokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = untokenized corpus files

bg cs da de el en es et fi fr he hr hu is it ja lt lv nl no pl pt pt_br ro ru sk sl sv tr zh
bg viewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
cs ces viewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
da ces ces viewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewda
de ces ces ces viewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces viewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces viewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewen
es ces ces ces ces ces ces viewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
et ces ces ces ces ces ces ces viewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewet
fi ces ces ces ces ces ces ces ces viewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewfi
fr ces ces ces ces ces ces ces ces ces viewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewfr
he ces ces ces ces ces ces ces ces ces ces viewviewhe viewviewviewviewviewviewviewviewviewviewviewviewhe
hr ces ces ces ces ces ces ces ces ces viewhr viewviewviewviewviewviewviewviewhr
hu ces ces ces ces ces ces ces ces ces ces ces ces viewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
is ces ces ces ces ces ces ces viewis viewviewviewviewviewviewviewviewviewis
it ces ces ces ces ces ces ces ces ces ces ces ces it viewviewviewviewviewviewviewviewit
bg cs da de el en es et fi fr he hr hu is it ja lt lv nl no pl pt pt_br ro ru sk sl sv tr zh
ja ces ces ces ces ces ces ces ces ja viewviewviewviewviewviewviewja
lt ces ces ces ces ces ces ces ces ces ces lt viewviewviewviewviewviewviewviewviewviewlt
lv ces ces ces lv viewviewviewviewlv
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces viewviewviewviewviewviewviewviewviewviewnl
no ces ces ces ces ces ces ces ces ces ces ces ces ces no ces ces ces viewviewviewviewviewviewviewviewno
pl ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces viewviewviewviewviewviewviewpl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces viewviewviewviewviewviewviewviewpt
pt_br ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt_br ces ces ces ces ces ces viewviewviewviewviewviewviewpt_br
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces viewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces viewviewviewviewru
sk ces ces ces ces ces ces ces ces ces sk ces ces ces ces viewviewsk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces viewviewviewsl
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces viewviewsv
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces viewtr
zh ces ces ces ces ces ces ces ces ces ces zh ces ces ces ces ces ces ces ces ces zh
bg cs da de el en es et fi fr he hr hu is it ja lt lv nl no pl pt pt_br ro ru sk sl sv tr zh

Statistics and TMX/Moses Downloads

Number of files, tokens, and sentences per language (including non-parallel ones if they exist)
Number of sentence alignment units per language pair

Upper-right triangle: download translation memory files (TMX)
Bottom-left triangle: download plain text files (MOSES/GIZA++)
Language ID's, first row: monolingual plain text files (tokenized)
Language ID's, first column: monolingual plain text files (untokenized)

language files tokens sentencesbg cs da de el en es et fi fr he hr hu is it ja lt lv nl no pl pt pt_br ro ru sk sl sv tr zh
bg 1,006 7.4M 1.1M0.2M 7.0k 23.7k 0.1M 0.2M 0.2M 26.0k 45.2k 54.0k 7.0k 5.2k 91.5k 3.1k 2.1k 6.5k 1.2k 0.1M 16.7k 3.9k 0.2M 92.9k 0.3M 4.1k 3.4k 0.2M 89.3k 0.2M 1.2k
cs 1,659 11.2M 1.8M0.3M 14.8k 42.5k 0.2M 0.3M 0.3M 32.8k 87.4k 99.9k 8.7k 6.5k 0.1M 1.0k 6.3k 4.1k 11.6k 0.2M 21.1k 30.3k 0.3M 0.2M 0.3M 14.9k 20.0k 0.3M 0.2M 0.2M 1.1k
da 103 0.6M 89.0k7.2k 15.2k 7.6k 9.9k 23.5k 19.2k 0.9k 10.7k 10.3k 0.3k 5.0k 1.1k 16.6k 11.4k 15.2k 11.7k 2.6k 0.1k 9.2k 22.6k 3.3k
de 272 2.1M 0.3M24.4k 44.4k 8.1k 50.2k 66.9k 56.5k 1.4k 31.6k 42.0k 0.2k 2.6k 18.2k 8.4k 24.3k 3.4k 54.9k 35.6k 5.0k 44.8k 28.3k 15.7k 5.7k 1.1k 37.6k 58.8k 30.2k 0.8k
el 1,029 7.3M 1.1M0.1M 0.2M 10.2k 52.0k 0.2M 0.2M 12.2k 54.7k 89.3k 4.9k 1.3k 92.7k 11.0k 3.4k 5.7k 0.2M 20.5k 3.5k 0.2M 0.1M 0.2M 23.4k 1.5k 0.2M 0.1M 0.2M 4.0k
en 2,317 19.8M 2.7M0.2M 0.4M 24.8k 70.5k 0.2M 0.5M 27.6k 0.1M 0.2M 5.0k 6.6k 0.1M 6.8k 17.2k 5.6k 8.0k 0.3M 65.4k 48.6k 0.3M 0.3M 0.3M 22.3k 2.4k 0.3M 0.3M 0.2M 2.7k
es 2,047 15.4M 2.1M0.2M 0.3M 19.7k 58.6k 0.2M 0.5M 18.8k 100.0k 0.2M 5.9k 4.9k 0.1M 5.1k 29.5k 4.3k 8.4k 0.6k 0.3M 37.5k 11.0k 0.4M 0.3M 0.2M 13.9k 2.5k 0.2M 0.2M 0.2M 3.9k
et 138 0.9M 0.2M26.9k 34.1k 1.0k 1.5k 12.4k 29.6k 19.5k 5.9k 2.7k 1.2k 2.3k 3.4k 0.9k 17.2k 2.0k 3.8k 23.8k 8.9k 31.9k 0.8k 24.7k 9.6k 12.0k
fi 554 3.0M 0.6M46.9k 91.2k 11.1k 32.8k 56.0k 0.1M 0.1M 6.1k 36.6k 1.9k 0.5k 35.0k 9.4k 11.4k 5.9k 52.5k 94.3k 4.5k 81.0k 50.9k 41.0k 7.4k 0.3k 63.8k 0.1M 41.9k 2.4k
fr 705 5.4M 0.8M55.9k 0.1M 10.5k 43.7k 91.0k 0.2M 0.2M 2.9k 38.1k 0.7k 2.7k 40.8k 3.5k 18.1k 0.5k 2.6k 0.1M 25.5k 3.4k 0.1M 83.5k 54.7k 5.5k 78.0k 79.8k 61.1k 1.9k
he 347 2.5M 68.4k7.1k 8.8k 0.3k 0.2k 4.9k 5.0k 6.0k 1.2k 1.9k 0.7k 2.7k 0.2k 0.1k 1.7k 0.9k 6.1k 3.7k 7.1k 0.2k 0.1k 4.8k 3.2k 6.0k 0.2k
hr 38 0.3M 40.1k5.2k 6.6k 2.7k 1.3k 6.8k 4.9k 2.3k 0.6k 2.8k 1.4k 7.2k 1.0k 1.8k 2.5k 6.1k 5.6k 3.0k 5.9k
hu 487 3.4M 0.6M96.2k 0.1M 5.2k 18.9k 95.6k 0.1M 0.1M 3.5k 36.2k 42.2k 2.7k 1.4k 1.6k 5.3k 1.0k 6.0k 0.6k 82.5k 15.5k 4.3k 0.1M 75.7k 96.6k 10.6k 2.4k 77.1k 86.6k 64.4k 1.9k
is 19 0.1M 23.2k1.0k 8.9k 7.1k 5.4k 9.8k 3.7k 1.6k 4.5k 7.0k 15.3k 1.4k 6.6k 2.5k 0.8k 0.8k 11.0k 2.5k
it 86 0.6M 89.1k3.2k 6.6k 1.1k 25.5k 11.4k 18.3k 30.8k 11.7k 18.8k 0.2k 5.6k 4.7k 18.0k 15.0k 14.3k 5.7k 6.0k 6.2k 15.1k 8.1k
ja 14 0.1M 16.6k2.1k 4.1k 3.4k 3.4k 5.6k 4.3k 0.5k 1.0k 2.8k 1.3k 5.3k 1.8k 2.0k 3.0k 5.4k
lt 39 0.2M 40.8k6.7k 12.1k 5.8k 8.5k 8.5k 0.9k 6.2k 2.7k 0.1k 6.1k 8.0k 0.9k 9.4k 4.9k 9.7k 1.2k 9.9k 5.4k 7.3k 0.4k
lv 3 20.8k 3.6k1.2k 0.6k 0.6k 0.6k 1.2k 0.6k 1.1k
nl 1,275 9.5M 1.4M0.1M 0.2M 17.0k 56.5k 0.2M 0.3M 0.3M 17.8k 54.5k 0.1M 1.7k 7.3k 86.0k 7.2k 18.5k 2.8k 8.1k 0.6k 37.6k 7.0k 0.2M 0.2M 0.1M 26.1k 0.2M 0.2M 0.1M 1.6k
no 329 2.2M 0.3M17.2k 21.7k 11.9k 37.4k 20.8k 68.8k 38.9k 2.0k 0.1M 26.4k 15.8k 16.1k 15.5k 1.3k 0.9k 39.0k 3.6k 40.4k 13.0k 12.8k 2.0k 27.1k 0.1M 19.1k
pl 170 1.1M 0.2M3.9k 31.3k 5.1k 3.5k 52.1k 11.2k 3.9k 4.6k 3.5k 0.9k 1.0k 4.4k 1.4k 7.1k 3.6k 11.7k 8.2k 26.4k 1.1k 16.1k 3.9k 10.7k
pt 1,537 12.1M 1.8M0.3M 0.3M 15.7k 46.6k 0.2M 0.4M 0.4M 24.8k 85.2k 0.1M 6.2k 1.8k 0.1M 7.0k 14.9k 5.3k 9.7k 0.2M 42.2k 11.9k 0.2M 0.3M 17.8k 1.8k 0.3M 0.2M 0.2M 1.0k
pt_br 1,152 8.3M 1.2M97.5k 0.2M 12.0k 29.4k 0.1M 0.3M 0.3M 9.2k 53.2k 87.5k 3.7k 2.5k 79.1k 2.5k 6.0k 1.8k 4.9k 0.2M 13.3k 8.4k 0.3M 0.1M 10.8k 1.9k 0.2M 0.1M 0.1M 3.7k
ro 1,224 10.1M 1.5M0.3M 0.3M 2.6k 16.1k 0.2M 0.3M 0.3M 33.6k 42.5k 56.4k 7.2k 6.2k 0.1M 0.8k 6.1k 2.0k 10.0k 1.3k 0.1M 13.1k 27.2k 0.3M 0.1M 11.3k 4.6k 0.3M 90.3k 0.2M 1.2k
ru 97 0.7M 0.1M4.2k 15.4k 0.1k 5.9k 24.0k 23.9k 14.2k 0.8k 7.5k 5.7k 0.2k 11.0k 1.3k 27.0k 2.0k 18.5k 11.0k 11.5k 18.4k 11.3k 13.4k 2.8k
sk 40 0.2M 32.4k3.5k 20.9k 1.1k 1.6k 2.5k 2.5k 0.3k 0.1k 2.5k 1.1k 1.8k 1.9k 4.8k 4.6k 2.2k
sl 1,487 10.1M 1.6M0.2M 0.3M 9.4k 38.9k 0.2M 0.4M 0.3M 26.2k 66.6k 81.2k 4.8k 5.7k 81.2k 0.8k 6.5k 3.0k 10.3k 0.2M 27.9k 16.4k 0.3M 0.2M 0.3M 19.0k 4.8k 0.1M 0.2M 1.2k
sv 1,238 8.4M 1.3M92.9k 0.2M 23.7k 61.5k 0.1M 0.3M 0.2M 9.9k 0.1M 82.7k 3.2k 3.1k 90.7k 11.7k 15.4k 5.6k 0.6k 0.2M 0.1M 4.0k 0.2M 0.1M 95.1k 11.8k 0.1M 80.4k 2.1k
tr 975 6.2M 1.1M0.2M 0.2M 3.4k 31.0k 0.2M 0.2M 0.2M 12.5k 43.4k 63.2k 6.1k 5.9k 67.9k 2.6k 8.4k 5.4k 7.6k 1.1k 0.1M 19.6k 11.0k 0.2M 0.1M 0.2M 13.8k 2.3k 0.2M 83.9k 2.7k
zh 13 76.0k 16.9k1.3k 1.2k 0.8k 4.0k 2.8k 3.9k 2.4k 1.9k 0.2k 2.0k 0.4k 1.6k 1.0k 3.8k 1.2k 2.8k 1.2k 2.1k 2.8k

Note that TMX files only contain unique translation units and, therefore, the number of aligned units is smaller than for the distributions in Moses and XML format. Moses downloads include all non-empty alignment units including duplicates. Token counts for each language also include duplicate sentences and documents.


Disclaimer

Notice and take down policy

Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please: Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.