Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CCMatrix] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELITR_ECA] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [KDE4/doc] [liv4ever] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [MT560] [NC] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

OpenSubtitles2013

This is an EXTENSION of the OpenSubtitles2012 collection of translated movie subtitles from http://www.opensubtitles.org/. It contains additional subtitle pairs not covered by the previous distribution.
Look at the latest package of OpenSubtitles2018!

IMPORTANT: If you use the OpenSubtitle corpus:
Please, add a link to http://www.opensubtitles.org/ to your website and to your reports and publications produced with the data! I promised this when I got the data from the providers of that website!

59 languages, 1,211 bitexts
total number of files: 756,370
total number of tokens: 4.35G
total number of sentence fragments: 630.59M

Please cite the following article if you use any part of the corpus in your own work:
Jörg Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

News

Download

Note that you also need the files from OpenSubtitles2012 if you download the XML source files of this collection. Some files are linked and aligned to the subtitles in the 2012 collection!

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = tokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = untokenized corpus files

af ar be bg bn bs ca cs da de el en es et eu fa fi fr he hi hr hu hy id is it ja ka kk ko lt lv mk ml ms nb nl pl pt pt_br ro ru si sk sl sq sr sv sw ta te th tr uk ur vi zh zh_cn zh_tw
af viewviewviewaf viewaf af
ar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar
be viewviewbe viewbe viewbe
bg ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bn ces viewviewviewviewviewviewviewviewviewbn viewviewviewviewviewbn viewviewviewviewviewbn
bs ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewbs
ca ces ces ces viewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewca
cs ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
da ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewda
de ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
es ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
et ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet
eu ces ces ces ces ces ces ces ces ces ces viewviewvieweu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweu viewviewviewviewviewviewviewviewviewviewviewviewvieweu
fa ces ces ces ces ces ces ces ces ces viewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewfa
fi ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewfi
fr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewfr
he ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewhe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe
hi ces ces ces ces ces ces ces ces ces ces ces ces hi viewviewviewviewviewviewviewviewviewviewviewviewviewhi viewviewviewviewviewviewviewviewviewhi
af ar be bg bn bs ca cs da de el en es et eu fa fi fr he hi hr hu hy id is it ja ka kk ko lt lv mk ml ms nb nl pl pt pt_br ro ru si sk sl sq sr sv sw ta te th tr uk ur vi zh zh_cn zh_tw
hr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr
hu ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hu ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
hy ces ces hy viewviewviewviewhy viewhy
id ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces id ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewid viewviewviewviewviewviewviewviewviewviewviewviewviewid
is ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces is ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewis viewviewviewviewviewviewviewviewviewviewviewviewviewis
it ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces it ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewit viewviewviewviewviewviewviewviewviewviewviewviewviewviewit
ja ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ja ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewja viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewja
ka ces ka ka ka
kk ces ces ces ces ces ces ces ces kk ces ces ces viewviewviewviewkk viewviewviewviewviewkk
ko ces ces ces ces ces ces ces ces ces ces ces ces ces ces ko ces ces ces ces ces viewviewviewviewviewviewviewviewviewko viewviewviewviewviewviewviewviewviewviewviewko
lt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lt ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewlt viewviewviewviewviewviewviewviewviewviewviewviewviewlt
lv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lv ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewlv viewviewviewviewviewviewviewviewviewviewviewviewviewlv
mk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewmk viewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
ml ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ml ces ces ces ces ces viewviewviewviewviewviewml viewviewviewviewviewviewviewviewviewml
ms ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ms ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewms viewviewviewviewviewviewviewviewviewviewviewviewviewviewms
nb ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nb ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewnb viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnb
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewnl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnl
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewpl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewpt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpt
pt_br ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt_br ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewpt_br viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpt_br
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewro
af ar be bg bn bs ca cs da de el en es et eu fa fi fr he hi hr hu hy id is it ja ka kk ko lt lv mk ml ms nb nl pl pt pt_br ro ru si sk sl sq sr sv sw ta te th tr uk ur vi zh zh_cn zh_tw
ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru viewviewviewviewviewviewviewviewviewviewviewviewviewru
si ces ces ces ces ces ces ces ces ces ces ces ces ces ces si ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces si ces viewviewviewviewviewviewviewviewviewviewviewsi
sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces viewviewviewviewviewviewviewviewviewviewviewsk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces viewviewviewviewviewviewviewviewviewviewsl
sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces viewviewviewviewviewviewviewviewviewviewsq
sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces viewviewviewviewviewviewviewviewsr
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces viewviewviewviewviewviewviewsv
sw ces ces sw ces ces sw viewsw
ta ces ces ces ces ces ces ces ces ta ces ces ces ces ces ces ces ces ces ta viewviewta
te ces ces ces ces ces ces ces ces te ces ces ces ces ces ces ces ces ces te ces viewte
th ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces viewviewviewviewviewth
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewtr
uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces viewviewviewuk
ur ces ces ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ur
vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces viewviewvi
zh ces ces ces ces zh zh ces zh
zh_cn ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_cn ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_cn ces ces ces ces ces ces ces ces ces ces ces viewzh_cn
zh_tw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_tw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_tw ces ces ces ces ces ces ces ces ces ces ces ces ces zh_tw
af ar be bg bn bs ca cs da de el en es et eu fa fi fr he hi hr hu hy id is it ja ka kk ko lt lv mk ml ms nb nl pl pt pt_br ro ru si sk sl sq sr sv sw ta te th tr uk ur vi zh zh_cn zh_tw

Disclaimer

Notice and take down policy

Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please: Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.