Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CCMatrix] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELITR_ECA] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [KDE4/doc] [liv4ever] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [MT560] [NC] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

OpenSubtitles2012

A collection of documents from http://www.opensubtitles.org/.
Look at the latest package of OpenSubtitles2018!

IMPORTANT: If you use the OpenSubtitle corpus:
Please, add a link to http://www.opensubtitles.org/ to your website and to your reports and publications produced with the data! I promised this when I got the data from the providers of that website!

This is a slightly cleaner and bigger version of the subtitle collection using improved sentence alignment and better language checking.
The previous release is still available here.

55 languages, 1,076 bitexts
total number of files: 1,415,879
total number of tokens: 8.48G
total number of sentence fragments: 1.24G

Please cite the following article if you use any part of the corpus in your own work:
Jörg Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

News

Download

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = tokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = untokenized corpus files

af ar az be bg bn bs ca cs da de el en es et eu fa fi fr gl he hi hr hu id is it ja kk ko lt lv mk ms nb nl pl pt pt_br ro ru si sk sl sq sr sv th tr uk ur vi zh zh_cn zh_tw
af viewviewviewviewviewviewviewaf viewviewviewviewviewviewviewaf viewviewviewaf
ar ces viewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar
az viewviewviewviewaz viewviewviewaz viewaz
be viewbe be be
bg ces viewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bn viewbn bn bn
bs ces ces viewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewbs
ca ces ces ces ces viewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewca
cs ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
da ces ces ces ces ces viewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda
de ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
es ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
et ces ces ces ces ces ces ces ces ces ces viewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet
eu ces ces ces ces ces ces ces ces viewvieweu viewviewviewviewviewviewvieweu viewviewviewviewviewviewvieweu
fa ces ces ces ces ces ces ces ces ces ces viewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewfa
fi ces ces ces ces ces ces ces ces ces ces ces ces ces viewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi
fr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces fr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr
af ar az be bg bn bs ca cs da de el en es et eu fa fi fr gl he hi hr hu id is it ja kk ko lt lv mk ms nb nl pl pt pt_br ro ru si sk sl sq sr sv th tr uk ur vi zh zh_cn zh_tw
gl ces ces gl viewgl gl
he ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces he viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe
hi ces hi hi hi
hr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hr ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr
hu ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hu ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
id ces ces ces ces ces ces ces ces ces ces ces ces id ces ces ces viewviewviewviewviewviewviewviewviewid viewviewviewviewviewviewviewid
is ces ces ces ces ces ces ces ces ces ces ces ces ces is ces ces ces viewviewviewviewviewviewviewviewviewviewviewis viewviewviewviewviewviewviewviewviewviewviewviewviewviewis
it ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces it ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewit viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewit
ja ces ces ces ces ces ces ces ces ces ces ces ces ces ja ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewja viewviewviewviewviewviewviewviewviewviewviewviewviewviewja
kk ces ces ces kk ces viewviewviewkk viewviewkk
ko ces ces ces ces ces ces ces ces ces ces ces ces ces ces ko ces ces ces ces ces viewviewviewviewviewviewviewko viewviewviewviewviewviewviewviewviewviewviewko
lt ces ces ces ces ces ces ces ces ces ces ces ces ces ces lt ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewlt viewviewviewviewviewviewviewviewviewviewviewviewviewviewlt
lv ces ces ces ces ces ces ces ces ces ces ces ces ces lv ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewlv viewviewviewviewviewviewviewviewviewviewviewviewviewlv
mk ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewmk viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
ms ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ms ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewms viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewms
nb ces ces ces ces ces ces ces ces ces ces ces ces ces ces nb ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewnb viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnb
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewnl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnl
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewpl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewpt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpt
pt_br ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt_br ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt_br viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpt_br
af ar az be bg bn bs ca cs da de el en es et eu fa fi fr gl he hi hr hu id is it ja kk ko lt lv mk ms nb nl pl pt pt_br ro ru si sk sl sq sr sv th tr uk ur vi zh zh_cn zh_tw
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewru
si ces ces ces ces ces ces ces ces ces ces ces ces si ces ces ces ces ces ces ces ces ces ces ces ces ces ces si ces ces viewviewviewviewviewviewviewviewviewviewsi
sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces viewviewviewviewviewviewviewviewviewviewviewsk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewsl
sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces viewviewviewviewviewviewviewviewviewsq
sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces viewviewviewviewviewviewviewviewsr
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewsv
th ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces viewviewviewviewth
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewtr
uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces viewviewuk
ur ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces viewur
vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces ces viewviewvi
zh ces ces ces ces ces ces ces ces ces zh ces ces ces ces ces ces ces ces zh ces ces ces ces ces viewzh
zh_cn ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_cn ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_cn ces ces ces ces ces ces ces ces ces ces ces ces ces viewzh_cn
zh_tw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_tw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_tw ces ces ces ces ces ces ces ces ces ces ces zh_tw
af ar az be bg bn bs ca cs da de el en es et eu fa fi fr gl he hi hr hu id is it ja kk ko lt lv mk ms nb nl pl pt pt_br ro ru si sk sl sq sr sv th tr uk ur vi zh zh_cn zh_tw

Disclaimer

Notice and take down policy

Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please: Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.