Home / Query / WordAlign / Wiki    [ada83] [bible] [bianet] [books] [CCAligned] [CCMatrix] [CAPES] [DGT] [DOGC] [ECB] [EhuHac] [EiTB] [Elhuyar] [ELITR_ECA] [ELRC] [EMEA] [EUbooks] [EU] [Europarl] [EuroPat] [finlex] [fiskmö] [giga] [GNOME] [GlobalVoices] [hren] [infopankki] [JRC] [KDE4/doc] [liv4ever] [MBS] [memat] [MontenegrinSubs] [MultiUN] [MultiParaCrawl] [MultiCCAligned] [MT560] [NC] [Ofis] [OO/OO3] [subs/16/18] [Opus100] [ParaCrawl] [ParCor] [PHP] [QED] [sardware] [SciELO] [SETIMES] [SPC] [Tatoeba] [Tanzil] [TEP] [TED] [tico19] [Tilde] [Ubuntu] [UN] [UNPC] [WikiMatrix] [Wikimedia] [Wikipedia] [WikiSource] [WMT] [XhosaNavy]

DocHPLT v2.1

Parallel corpora from Web Crawls collected in the HPLT project. This is the document-aligned version of the data that provides the original parallel documents that contain aligned sentences extracted into the bitextreleased in the HPLT 2 release.

51 languages, 1,275 bitexts
total number of files: 87,775,169
total number of tokens: 57.73G
total number of sentence fragments: 4.26G

Please, acknowledge the HPLT project at https://hplt-project.org. This version is derived from the original release at their website adjusted for redistribution via the OPUS corpus collection. Please, acknowledge OPUS as well for this service.

Download

Below you can download data files for all language pairs in different formats and with different kind of annotation (if available). You can click on the various links as explained below. In addition to the files shown on this webpage, OPUS also provides pre-compiled word alignments and phrase tables, bilingual dictionaries, frequency counts, and these files can be found through the resources search form on the top-level website of OPUS.

The data packaging is released under the Creative Commons CC0 license ("no rights reserved"), see https://hplt-project.org for more details

Release history:

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = untokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = tokenized corpus files

filestokenssentences af ar az be bg bn bs ca cy en eo et eu fa fi ga gl gu he hi hr is ja kk kn ko lt lv mk ml mr ms mt nb ne nn si sk sl sq sr sw ta te th tr uk ur uz vi xh
af 297,636249.3M16.4M viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaf viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaf viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaf
ar 2,271,1671.3G65.5Mces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar
az 332,742157.3M12.2Mces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewaz viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaz viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewaz
be 212,121138.7M10.7Mces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewbe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbe
bg 1,746,3011.1G80.0Mces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bn 414,099227.4M10.5Mces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewbn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbn
bs 514,615326.2M20.6Mces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbs
ca 1,198,217752.6M47.9Mces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca
cy 265,261141.9M8.9Mces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewcy viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcy viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcy
en 47,484,34936.0G2.7Gces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
eo 119,19688.4M6.1Mces ces ces ces ces ces ces ces ces ces viewviewviewviewviewvieweo viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweo viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweo
et 774,561377.3M33.7Mces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet
eu 189,34784.1M6.8Mces ces ces ces ces ces ces ces ces ces ces ces viewviewviewvieweu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewvieweu
fa 810,029676.7M24.8Mces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfa viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfa
fi 2,445,7911.1G111.6Mces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi
ga 172,167107.0M6.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewga viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewga viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewga
gl 233,545174.9M10.7Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces gl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewgl viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewgl
af ar az be bg bn bs ca cy en eo et eu fa fi ga gl gu he hi hr is ja kk kn ko lt lv mk ml mr ms mt nb ne nn si sk sl sq sr sw ta te th tr uk ur uz vi xh
gu 108,50775.9M3.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces gu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewgu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewgu
he 1,190,198685.2M38.1Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces he ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhe
hi 1,336,090994.8M37.6Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hi ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhi
hr 1,063,347701.1M52.3Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces hr ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewhr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr
is 274,078142.5M12.6Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces is ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewis viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewis
ja 4,032,689544.0M164.1Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ja ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewja viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewja
kk 140,08275.8M5.9Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces kk ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewkk viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewkk
kn 123,05384.4M4.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces kn ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewkn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewkn
ko 2,058,8111.1G84.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ko ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewko viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewko
lt 1,031,628548.6M48.7Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lt ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewlt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewlt
lv 796,659440.0M37.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lv ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewlv viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewlv
mk 307,055196.3M12.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewmk viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
ml 115,18952.5M2.9Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ml ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewml viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewml
mr 128,80866.4M3.1Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mr ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewmr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmr
ms 978,185635.4M51.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ms ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewms viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewms
mt 141,08893.0M6.3Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewmt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmt
nb 1,884,3621.0G89.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nb ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewnb viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnb
ne 74,57937.2M1.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ne ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ne viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewne
af ar az be bg bn bs ca cy en eo et eu fa fi ga gl gu he hi hr is ja kk kn ko lt lv mk ml mr ms mt nb ne nn si sk sl sq sr sw ta te th tr uk ur uz vi xh
nn 93,28550.0M4.2Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nn ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nn viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnn
si 50,60534.8M1.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces si ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces si ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewsi
sk 1,461,804849.2M70.1Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewsk
sl 797,858497.3M37.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewsl
sq 328,651200.6M11.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewsq
sr 407,440288.5M21.6Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewsr
sw 185,287125.5M8.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewsw
ta 215,564120.7M6.8Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ta ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ta ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewta
te 141,27997.7M5.1Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces te ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces te ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewte
th 676,699139.3M16.1Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces th ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewth
tr 3,884,1371.8G100.4Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewtr
uk 1,955,0411.1G89.8Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewuk
ur 234,708190.7M5.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ur ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewur
uz 69,44044.2M3.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uz ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uz ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewuz
vi 1,986,2581.7G87.5Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces vi ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewvi
xh 21,56111.9M1.0Mces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces xh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces xh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces xh
af ar az be bg bn bs ca cy en eo et eu fa fi ga gl gu he hi hr is ja kk kn ko lt lv mk ml mr ms mt nb ne nn si sk sl sq sr sw ta te th tr uk ur uz vi xh


Disclaimer

Notice and take down policy

Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please: Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.