Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CCMatrix] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELITR_ECA] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [KDE4/doc] [liv4ever] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [MT560] [NC] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

DocHPLT v2

Parallel corpora from Web Crawls collected in the HPLT project. This is the document-aligned version of the data that provides the original parallel documents that contain aligned sentences extracted into the bitextreleased in the HPLT v2 release.

51 languages, 1,275 bitexts
total number of files: 74,078,581
total number of tokens: 51.76G
total number of sentence fragments: 3.80G

Please, acknowledge the HPLT project at https://hplt-project.org. This version is derived from the original release at their website adjusted for redistribution via the OPUS corpus collection. Please, acknowledge OPUS as well for this service.

Download

Below you can download data files for all language pairs in different formats and with different kind of annotation (if available). You can click on the various links as explained below. In addition to the files shown on this webpage, OPUS also provides pre-compiled word alignments and phrase tables, bilingual dictionaries, frequency counts, and these files can be found through the resources search form on the top-level website of OPUS.

The data packaging is released under the Creative Commons CC0 license ("no rights reserved"), see https://hplt-project.org for more details

Release history:

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = untokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = tokenized corpus files

filestokenssentences af ar az be bg bn bs ca cy en eo et eu fa fi ga gl gu he hi hr is ja kk kn ko lt lv mk ml mr ms mt nb ne nn si sk sl sq sr sw ta te th tr uk ur uz vi xh
af 272,236224.8M14.9M viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaf viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaf viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaf
ar 2,173,2981.3G63.9Mces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar
az 296,513147.4M11.5Mces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewaz viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaz viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaz
be 204,741136.4M10.5Mces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewbe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbe
bg 1,653,5481.1G77.2Mces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bn 356,228198.6M9.4Mces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewbn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn
bs 456,798300.4M19.0Mces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbs
ca 1,151,138731.3M46.4Mces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca
cy 258,435138.6M8.7Mces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewcy viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcy viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcy
en 38,199,38731.7G2.3Gces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
eo 111,55685.3M5.9Mces ces ces ces ces ces ces ces ces ces viewviewviewviewviewvieweo viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweo viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweo
et 731,061361.3M32.3Mces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet
eu 172,68679.9M6.4Mces ces ces ces ces ces ces ces ces ces ces ces viewviewviewvieweu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweu
fa 657,669567.3M20.7Mces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfa
fi 2,303,7251.0G106.0Mces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi
ga 166,037104.3M6.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewga viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewga viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewga
gl 221,480170.2M10.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces gl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewgl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewgl
af ar az be bg bn bs ca cy en eo et eu fa fi ga gl gu he hi hr is ja kk kn ko lt lv mk ml mr ms mt nb ne nn si sk sl sq sr sw ta te th tr uk ur uz vi xh
gu 92,18267.4M2.9Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces gu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewgu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewgu
he 1,106,178636.6M35.9Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces he ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe
hi 1,189,883898.8M34.6Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hi ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhi
hr 985,421666.4M49.9Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hr ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewhr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr
is 258,423135.3M12.0Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces is ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewis viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewis
ja 2,784,802431.0M126.9Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ja ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewja viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewja
kk 131,05873.2M5.7Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces kk ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewkk viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewkk
kn 105,50377.9M4.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces kn ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewkn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewkn
ko 1,888,7751.0G78.7Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ko ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewko viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewko
lt 968,440525.7M46.7Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lt ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewlt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewlt
lv 762,882427.7M36.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lv ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewlv viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewlv
mk 290,528190.8M12.1Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewmk viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
ml 88,07542.1M2.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ml ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewml viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewml
mr 101,79054.2M2.6Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mr ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewmr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmr
ms 791,580477.0M39.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ms ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewms viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewms
mt 124,86988.1M6.0Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewmt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmt
nb 1,773,132986.6M84.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nb ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewnb viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnb
ne 44,02226.3M1.1Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ne ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ne viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewne
af ar az be bg bn bs ca cy en eo et eu fa fi ga gl gu he hi hr is ja kk kn ko lt lv mk ml mr ms mt nb ne nn si sk sl sq sr sw ta te th tr uk ur uz vi xh
nn 82,09345.4M3.8Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nn ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnn
si 40,46627.7M1.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces si ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces si ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewsi
sk 1,382,535817.1M67.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewsk
sl 758,663480.7M36.3Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewsl
sq 303,463188.2M10.7Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewsq
sr 385,741277.6M20.9Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewsr
sw 163,557112.9M7.6Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewsw
ta 166,46595.6M5.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ta ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ta ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewta
te 115,01285.4M4.6Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces te ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces te ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewte
th 570,175119.5M14.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewth
tr 3,296,6141.5G90.0Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewtr
uk 1,856,5511.0G86.9Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewuk
ur 195,663161.4M4.8Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewur
uz 64,35942.3M3.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uz ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uz ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewuz
vi 1,802,6971.6G82.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewvi
xh 20,44811.6M1.0Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces xh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces xh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces xh
af ar az be bg bn bs ca cy en eo et eu fa fi ga gl gu he hi hr is ja kk kn ko lt lv mk ml mr ms mt nb ne nn si sk sl sq sr sw ta te th tr uk ur uz vi xh


Disclaimer

Notice and take down policy

Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please: Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.