PHP

A parallel corpus originally extracted from http://se.php.net/download-docs.php. The original documents are written in English and have been partly translated into 21 languages. The original manuals contain about 500,000 words. The amount of actually translated texts varies for different languages between 50,000 and 380,000 words. The corpus is rather noisy and may include parts from the English original in some of the translations. The corpus is tokenized and each language pair has been sentence aligned.

23 languages, 252 bitexts
total number of files: 71,414
total number of tokens: 3.28M
total number of sentence fragments: 1.38M

Download

Below you can download data files for all language pairs in different formats and with different kind of annotation (if available). You can click on the various links as explained below. In addition to the files shown on this webpage, OPUS also provides pre-compiled word alignments and phrase tables, bilingual dictionaries, frequency counts, and these files can be found through the resources search form on the top-level website of OPUS.

Statistics and TMX/Moses Downloads

Upper-right triangle: download translation memory files (TMX)
Bottom-left triangle: download plain text files (MOSES/GIZA++)
Language ID's, first row: monolingual plain text files (tokenized)
Language ID's, first column: monolingual plain text files (untokenized)


language	files	tokens	sentences	cs	de	en	es	fi	fr	he	hu	it	ja	ko	nl	pl	pt_BR	ro	ru	sk	sl	sv	tr	zh	zh_TW
cs	3,271	0.1M	63.5k		5.4k	5.8k	4.2k	1.1k	5.4k	2.0k	3.6k	3.7k	5.5k	5.1k	3.2k	3.7k	4.1k	1.9k	1.8k	2.2k	2.0k	1.6k	2.7k	6.1k	5.4k
de	3,268	0.3M	65.1k	32.1k		12.3k	7.1k	1.3k	11.0k	3.0k	6.7k	5.9k	8.4k	7.8k	4.2k	6.6k	6.4k	2.9k	3.0k	3.0k	2.9k	2.5k	5.0k	10.4k	9.8k
en	3,283	0.5M	66.8k	33.0k	39.7k		8.5k	0.9k	16.0k	3.9k	7.8k	8.0k	12.0k	10.9k	4.4k	7.7k	8.1k	3.7k	3.7k	4.3k	3.7k	3.3k	9.1k	18.4k	18.3k
es	3,231	0.2M	59.6k	30.3k	33.2k	34.9k		1.3k	8.4k	2.5k	4.8k	4.5k	6.9k	6.4k	3.3k	4.1k	4.5k	2.4k	2.3k	2.6k	2.4k	2.1k	3.7k	7.8k	7.2k
fi	3,283	57.6k	66.8k	27.4k	27.4k	27.9k	26.7k		1.7k	1.1k	1.2k	1.1k	3.1k	3.0k	1.0k	1.5k	1.4k	1.3k	1.4k	1.3k	1.3k	1.2k	1.4k	3.1k	2.2k
fr	3,241	0.4M	60.8k	30.8k	36.8k	42.2k	33.6k	26.6k		3.4k	7.5k	6.8k	10.1k	9.3k	4.4k	6.7k	6.7k	3.5k	3.4k	3.9k	3.5k	3.1k	5.8k	12.5k	12.3k
he	3,071	0.1M	58.1k	25.3k	26.2k	27.8k	25.2k	24.5k	25.9k		2.3k	2.1k	4.5k	4.0k	1.6k	2.7k	2.6k	1.7k	1.8k	1.7k	1.8k	1.6k	3.9k	4.4k	3.9k
hu	3,279	0.2M	66.1k	30.3k	33.8k	35.4k	31.0k	27.8k	33.3k	25.7k		4.8k	6.2k	5.7k	3.3k	5.6k	4.9k	2.5k	2.4k	2.3k	2.4k	1.9k	4.0k	7.2k	6.6k
it	3,273	0.2M	65.1k	30.5k	32.6k	35.5k	30.5k	27.7k	32.3k	25.6k	31.7k		6.3k	5.9k	3.1k	4.3k	4.5k	2.4k	2.1k	2.3k	2.2k	1.9k	3.0k	7.5k	6.9k
ja	3,277	0	18.2k	8.9k	11.7k	15.5k	10.1k	6.5k	13.2k	7.6k	9.6k	9.7k		9.7k	4.7k	5.3k	5.4k	3.6k	3.8k	3.8k	3.5k	3.4k	4.8k	8.6k	11.1k
ko	3,238	0	16.3k	8.5k	11.1k	14.3k	9.7k	6.2k	12.3k	7.0k	8.9k	9.1k	13.7k		4.4k	4.8k	4.8k	3.4k	3.4k	3.5k	3.3k	3.2k	4.4k	8.2k	10.2k
nl	3,277	0.1M	66.4k	30.0k	30.8k	32.0k	29.2k	27.9k	29.7k	25.0k	30.3k	30.1k	8.1k	7.6k		3.5k	3.9k	1.9k	1.8k	1.9k	1.8k	1.6k	2.5k	5.2k	4.6k
pl	3,280	0.2M	73.7k	29.8k	32.8k	34.6k	29.5k	27.9k	31.8k	25.9k	32.5k	30.7k	6.6k	6.2k	29.9k		7.9k	5.1k	5.0k	5.2k	5.2k	4.8k	5.9k	7.8k	7.9k
pt_BR	3,283	0.2M	73.5k	30.2k	32.5k	35.3k	29.9k	28.0k	31.5k	25.8k	31.4k	30.9k	6.8k	6.1k	30.5k	39.0k		5.0k	5.1k	5.4k	5.1k	4.8k	5.2k	8.2k	8.2k
ro	3,264	93.8k	72.7k	27.7k	28.9k	30.4k	27.7k	27.7k	28.0k	24.7k	28.8k	28.5k	5.0k	4.7k	28.2k	35.5k	35.5k		4.7k	4.7k	4.5k	4.6k	4.4k	6.1k	5.7k
ru	3,283	0.1M	72.4k	27.4k	28.3k	30.1k	27.0k	27.6k	27.7k	25.0k	28.1k	27.8k	5.4k	4.9k	27.8k	34.8k	35.0k	34.3k		4.8k	4.7k	4.7k	4.4k	5.6k	5.8k
sk	3,285	93.7k	74.1k	28.1k	28.4k	31.2k	27.6k	27.8k	28.4k	24.8k	28.4k	28.4k	5.2k	4.8k	28.2k	35.5k	36.0k	34.9k	34.4k		4.6k	4.6k	4.2k	6.0k	5.9k
sl	3,276	88.9k	73.6k	27.9k	28.7k	30.6k	27.5k	27.9k	28.1k	25.0k	28.6k	28.4k	4.9k	4.5k	28.2k	35.9k	36.0k	35.1k	34.6k	35.0k		4.6k	4.4k	5.8k	5.6k
sv	3,285	76.2k	74.1k	27.7k	28.4k	30.2k	27.3k	27.9k	27.7k	24.7k	28.2k	28.1k	4.8k	4.5k	28.1k	35.5k	35.7k	35.2k	34.7k	35.2k	35.4k		4.2k	5.6k	5.4k
tr	2,904	0.2M	61.6k	24.9k	27.7k	32.7k	25.5k	23.8k	27.5k	26.5k	26.7k	25.5k	7.4k	6.9k	24.8k	31.7k	30.7k	29.8k	29.0k	29.5k	29.9k	29.6k		7.4k	6.8k
tw	0	0	0
zh	3,277	0	61.8k	27.3k	31.6k	41.7k	28.7k	24.5k	33.4k	24.3k	28.4k	28.9k	12.2k	11.8k	26.6k	31.7k	32.0k	29.7k	29.6k	29.5k	29.7k	29.4k	28.5k		45.0k
zh_TW	3,285	0	68.6k	30.6k	35.2k	46.5k	31.9k	27.7k	36.9k	26.7k	32.0k	32.3k	15.0k	14.0k	30.1k	36.7k	37.1k	34.3k	34.7k	34.5k	34.5k	34.3k	32.6k	16.7k

Note that TMX files only contain unique translation units and, therefore, the number of aligned units is smaller than for the distributions in Moses and XML format. Moses downloads include all non-empty alignment units including duplicates. Token counts for each language also include duplicate sentences and documents.

PHP

Download

Statistics and TMX/Moses Downloads

Disclaimer

Notice and take down policy

	cs	de	en	es	fi	fr	he	hu	it	ja	ko	nl	pl	pt_BR	ro	ru	sk	sl	sv	tr	tw	zh	zh_TW
cs		view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	cs
de	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	de
en	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	en
es	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	es
fi	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	fi
fr	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	fr
he	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	he
hu	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	view	view	hu
it	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	view	it
ja	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	view	ja
ko	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	view	ko
nl	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	view	nl
pl	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	view	pl
pt_BR	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	view	pt_BR
ro	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	view	ro
ru	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	view	ru
sk	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	view	sk
sl	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	view	sl
sv	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	view	sv
tr	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	view	view	tr
tw	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view		tw
zh	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		view	zh
zh_TW	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces	ces		ces		zh_TW
	cs	de	en	es	fi	fr	he	hu	it	ja	ko	nl	pl	pt_BR	ro	ru	sk	sl	sv	tr	tw	zh	zh_TW