Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CCMatrix] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELITR_ECA] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [KDE4/doc] [liv4ever] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [MT560] [NC] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

OpenSubtitles2011

A collection of documents from http://www.opensubtitles.org/.
Look at the latest package of OpenSubtitles2018!

IMPORTANT: If you use the OpenSubtitle corpus:
Please, add a link to http://www.opensubtitles.org/ to your website and to your reports and publications produced with the data! I promised this when I got the data from the providers of that website!

54 languages, 1,025 bitexts
total number of files: 1,390,584
total number of tokens: 8.31G
total number of sentence fragments: 1.22G

Please cite the following article if you use any part of the corpus in your own work:
Jörg Tiedemann, 2009, News from OPUS - A Collection of Multilingual Parallel Corpora with Tools and Interfaces. In N. Nicolov and K. Bontcheva and G. Angelova and R. Mitkov (eds.) Recent Advances in Natural Language Processing (vol V), pages 237-248, John Benjamins, Amsterdam/Philadelphia

Download

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = parsed XML file samples (if they exist)

ar bg bs ca cs da de el en eo es et eu fa fi fr gl he hr hu id is it ja ka kk ko lb lt lv mk ms nl no oc pl pt pt_br ro ru scc scr si sk sl sq sv th tl tr uk ur vi zh
ar viewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar
bg viewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bs ces ces viewviewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewbs
ca ces ces ces viewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewca
cs ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
da ces ces ces ces ces viewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda
de ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces ces ces ces viewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
eo ces ces ces ces ces ces viewviewvieweo viewviewviewviewviewvieweo viewviewviewviewviewvieweo
es ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
et ces ces ces ces ces ces ces ces ces ces viewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet
eu ces eu vieweu eu
fa ces ces ces ces ces ces ces ces ces ces viewviewviewfa viewviewviewviewviewviewviewviewviewviewfa viewviewviewviewviewviewviewviewviewviewfa
fi ces ces ces ces ces ces ces ces ces ces ces ces viewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi
fr ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr
gl ces ces ces ces ces gl viewviewgl viewviewgl
he ces ces ces ces ces ces ces ces ces ces ces ces ces he viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe
ar bg bs ca cs da de el en eo es et eu fa fi fr gl he hr hu id is it ja ka kk ko lb lt lv mk ms nl no oc pl pt pt_br ro ru scc scr si sk sl sq sv th tl tr uk ur vi zh
hr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr
hu ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hu ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
id ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces id ces ces viewviewviewviewviewviewviewviewviewviewviewviewid viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewid
is ces ces ces ces ces ces ces ces ces ces ces ces ces ces is ces ces ces viewviewviewviewviewviewviewviewviewviewis viewviewviewviewviewviewviewviewviewviewviewviewviewis
it ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces it ces ces ces ces viewviewviewviewviewviewviewviewviewviewit viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewit
ja ces ces ces ces ces ces ces ces ces ces ces ces ces ja ces ces ces ces ces viewviewviewviewviewviewviewviewja viewviewviewviewviewviewviewviewviewviewviewviewja
ka ces ces ces ces ces ces ces ces ces ces ces ces ka viewviewviewviewka viewviewviewviewviewviewviewka
kk ces kk viewkk viewkk
ko ces ces ces ces ces ces ces ces ces ces ces ces ko ces ces ces ces viewviewviewko viewviewviewviewviewko
lb ces ces ces ces ces ces ces ces ces ces lb ces ces viewviewviewlb viewviewviewviewviewviewlb
lt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lt ces ces ces ces ces ces viewviewviewviewviewviewviewlt viewviewviewviewviewviewviewviewviewviewviewviewlt
lv ces ces ces ces ces ces ces ces ces ces ces ces ces ces lv ces ces ces ces ces ces ces viewviewviewviewviewviewlv viewviewviewviewviewviewviewviewviewviewviewviewlv
mk ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces ces ces ces ces ces ces viewviewviewviewviewviewmk viewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
ms ces ces ces ces ces ces ces ces ces ces ces ces ces ms ces ces ces ces ces ces ces ces ces viewviewviewviewms viewviewviewviewviewviewviewviewviewviewviewviewviewviewms
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewnl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnl
no ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces no ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewno viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewno
oc ces ces ces ces oc ces ces viewoc viewviewoc
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewpl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpt
ar bg bs ca cs da de el en eo es et eu fa fi fr gl he hr hu id is it ja ka kk ko lb lt lv mk ms nl no oc pl pt pt_br ro ru scc scr si sk sl sq sv th tl tr uk ur vi zh
pt_br ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt_br ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt_br viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewpt_br
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces viewviewviewviewviewviewviewviewviewviewviewru
scc ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces scc ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces scc ces ces ces viewviewviewviewviewviewviewviewviewviewviewscc
scr ces ces ces ces ces ces ces ces ces ces ces scr ces ces ces ces ces ces ces ces scr ces ces ces viewviewviewviewscr
si ces ces ces ces ces ces ces ces ces ces ces ces ces si ces ces ces ces ces ces ces ces ces ces ces ces si ces ces ces ces viewviewviewviewviewviewsi
sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces ces ces viewviewviewviewviewviewviewviewsk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewsl
sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces viewviewviewviewviewviewviewsq
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces viewviewviewviewviewsv
th ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces ces viewviewviewth
tl ces ces ces ces ces ces ces tl ces ces tl ces ces ces viewtl
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewtr
uk ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces viewviewuk
ur ces ces ces ur ces ur ces ces ur
vi ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces viewvi
zh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh ces ces ces ces ces ces ces ces ces ces ces ces ces zh
ar bg bs ca cs da de el en eo es et eu fa fi fr gl he hr hu id is it ja ka kk ko lb lt lv mk ms nl no oc pl pt pt_br ro ru scc scr si sk sl sq sv th tl tr uk ur vi zh



Disclaimer

Notice and take down policy

Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please: Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.