Pelcra

Polish & English
Language Corpora
for Research
& Applications

Multilingual

 

Multilingual (Polish-*) parallel corpus (CC-BY)

DOWNLOAD LINK

The resource contains texts from:

The corpus is available at http://pelcra.pl/resources/parallel/pelcra_par_3.tgz

Detailed statistics for the delivered resources:

Language Texts Words
CORDIS
de 11 298 3 788 759
en 11 300 3 907 350
es 11 298 4 558 658
fr 11 294 4 456 198
it 11 297 4 247 051
pl 11 300 3 581 488
ESO
cz 108 107 246
de 109 125 152
dk 109 117 389
en 109 114 465
es 109 129 292
fi 99 77 827
fr 109 133 973
is 108 98 596
it 108 119 223
nl 109 114 689
no 109 115 387
pl 109 103 690
pt 109 135 737
ru 49 51 717
se 109 115 830
tr 89 83 151
uk 77 71 432
EuroParl
bg 2 150 1 069 594
cs 2 721 1 400 511
da 2 687 1 256 416
de 2 818 1 565 426
el 2 815 1 650 079
en 3 037 1 984 705
es 2 875 1 911 312
et 2 618 987 131
fi 2 791 1 068 788
fr 2 983 2 151 939
hu 2 738 1 204 774
it 2 857 2 126 734
lt 2 822 1 117 582
lv 2 782 1 127 309
mt 2 421 1 133 810
nl 2 674 1 453 939
pl 3 037 1 514 283
pt 2 759 1 724 997
ro 2 312 1 268 703
sk 2 801 1 330 813
sl 2 662 1 358 655
sv 2 760 1 402 537
RAPID
ar 2 1 320
be 1 311
bg 2 859 2 950 598
cs 3 852 3 519 477
da 3 527 3 581 573
de 5 472 4 698 354
el 3 842 4 387 709
en 5 556 4 958 435
es 4 632 5 234 290
et 3 496 2 794 073
fi 3 533 2 690 623
fr 5 484 5 627 415
ga 121 281 964
hr 2 3 304
hu 3 804 3 532 937
is 2 2 928
it 4 653 4 789 621
lt 3 514 3 068 543
lv 3 478 2 906 575
mt 3 408 3 193 485
nl 3 839 4 228 772
no 7 6 421
pl 5 556 4 532 589
pt 3 704 4 311 119
ro 2 947 3 195 511
ru 4 2 342
sk 3 700 3 426 456
sl 3 659 3 462 605
sw 3 673 3 518 099
tr 5 5 296