OpenSubtitles2016.php - Intra-Lingual Alignments

The following table lists alignments between subtitles in the same language. There are often various alternative subtitle files for each movie in the collection. Many of them are identical or near identical. We have processed them all and sorted the results in various ways. The resulting files are linked in the table for each language. Here is an explanation of the different columns:

Some alignment files exist as XCES only (standoff annotation of sentence alignment) and some of them are also available in TMX format (to make it easier to inspect the actual sentence pairs). If you use the XCES alignment files, then you will also need the corpus, which is linked in the first column.

language	corpus	all	insert	misaligned	other	pct	spell
ar	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
bg	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
bn	zip	xml				xml tmx	xml tmx
br	zip	xml			xml tmx		xml tmx
bs	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
ca	zip	xml	xml tmx		xml tmx	xml tmx	xml tmx
cs	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
da	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
de	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
el	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
en	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
eo	zip	xml		xml		xml tmx	xml tmx
es	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
et	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
eu	zip	xml	xml tmx	xml		xml tmx	xml tmx
fa	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
fi	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
fr	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
gl	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
he	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
hi	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
hr	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
hu	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
id	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
is	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
it	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
ja	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
ka	zip	xml
ko	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
lt	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
lv	zip	xml	xml tmx		xml tmx	xml tmx	xml tmx
mk	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
ml	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
ms	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
nl	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
no	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
pl	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
pt	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
pt_br	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
ro	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
ru	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
si	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
sk	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
sl	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
sq	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
sr	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
sv	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
th	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
tl	zip	xml				xml tmx	xml tmx
tr	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
uk	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
vi	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
zh	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
zh_en	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
zh_tw	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx
zh_zh	zip	xml	xml tmx	xml	xml tmx	xml tmx	xml tmx

OpenSubtitles2016 - Intra-Lingual Alignments

Disclaimer

Notice and take down policy