Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CCMatrix] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELITR_ECA] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [KDE4/doc] [liv4ever] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [MT560] [NC] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

OpenSubtitles v2018 - Intra-Lingual Alignments

The following table lists alignments between subtitles in the same language. There are often various alternative subtitle files for each movie in the collection. Many of them are identical or near identical. We have processed them all and sorted the results in various ways. The resulting files are linked in the table for each language. Here is an explanation of the different columns:

Some alignment files exist as XCES only (standoff annotation of sentence alignment) and some of them are also available in TMX format (to make it easier to inspect the actual sentence pairs). If you use the XCES alignment files, then you will also need the corpus, which is linked in the first column.

languagecorpusallinsertmisalignedotherpctspell
afzip xml tmx xml xml tmx
arzip xml xml tmx xml xml tmx xml tmx xml tmx
bgzip xml xml tmx xml xml tmx xml tmx xml tmx
bnzip xml xml tmx xml xml tmx xml tmx xml tmx
brzip xml xml tmx xml tmx
bszip xml xml tmx xml xml tmx xml tmx xml tmx
cazip xml xml tmx xml xml tmx xml tmx xml tmx
cszip xml xml tmx xml xml tmx xml tmx xml tmx
dazip xml xml tmx xml xml tmx xml tmx xml tmx
dezip xml xml tmx xml xml tmx xml tmx xml tmx
elzip xml xml tmx xml xml tmx xml tmx xml tmx
enzip xml xml tmx xml xml tmx xml tmx xml tmx
eozip xml xml xml tmx xml tmx
eszip xml xml tmx xml xml tmx xml tmx xml tmx
etzip xml xml tmx xml xml tmx xml tmx xml tmx
euzip xml xml tmx xml xml tmx xml tmx
fazip xml xml tmx xml xml tmx xml tmx xml tmx
fizip xml xml tmx xml xml tmx xml tmx xml tmx
frzip xml xml tmx xml xml tmx xml tmx xml tmx
glzip xml xml tmx xml xml tmx xml tmx xml tmx
hezip xml xml tmx xml xml tmx xml tmx xml tmx
hizip xml xml tmx xml xml tmx xml tmx xml tmx
hrzip xml xml tmx xml xml tmx xml tmx xml tmx
huzip xml xml tmx xml xml tmx xml tmx xml tmx
idzip xml xml tmx xml xml tmx xml tmx xml tmx
iszip xml xml tmx xml xml tmx xml tmx xml tmx
itzip xml xml tmx xml xml tmx xml tmx xml tmx
jazip xml xml tmx xml xml tmx xml tmx xml tmx
kazip xml
kozip xml xml tmx xml xml tmx xml tmx xml tmx
ltzip xml xml tmx xml xml tmx xml tmx xml tmx
lvzip xml xml tmx xml tmx xml tmx xml tmx
mkzip xml xml tmx xml xml tmx xml tmx xml tmx
mlzip xml xml tmx xml xml tmx xml tmx xml tmx
mszip xml xml tmx xml xml tmx xml tmx xml tmx
nlzip xml xml tmx xml xml tmx xml tmx xml tmx
nozip xml xml tmx xml xml tmx xml tmx xml tmx
plzip xml xml tmx xml xml tmx xml tmx xml tmx
ptzip xml xml tmx xml xml tmx xml tmx xml tmx
pt_brzip xml xml tmx xml xml tmx xml tmx xml tmx
rozip xml xml tmx xml xml tmx xml tmx xml tmx
ruzip xml xml tmx xml xml tmx xml tmx xml tmx
sizip xml xml tmx xml xml tmx xml tmx xml tmx
skzip xml xml tmx xml xml tmx xml tmx xml tmx
slzip xml xml tmx xml xml tmx xml tmx xml tmx
sqzip xml xml tmx xml xml tmx xml tmx xml tmx
srzip xml xml tmx xml xml tmx xml tmx xml tmx
svzip xml xml tmx xml xml tmx xml tmx xml tmx
tazip xml
thzip xml xml tmx xml xml tmx xml tmx xml tmx
tlzip xml xml tmx xml tmx
trzip xml xml tmx xml xml tmx xml tmx xml tmx
ukzip xml xml tmx xml xml tmx xml tmx xml tmx
urzip xml
vizip xml xml tmx xml xml tmx xml tmx xml tmx
ze_enzip xml xml tmx xml xml tmx xml tmx xml tmx
ze_zhzip xml xml tmx xml xml tmx xml tmx xml tmx
zh_cnzip xml xml tmx xml xml tmx xml tmx xml tmx
zh_twzip xml xml tmx xml xml tmx xml tmx xml tmx

Disclaimer

Notice and take down policy

Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please: Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.