Datenkompression


Kriterien

Übersicht Formate

Grundlagen

Kompressionsverfahren

Datenformate


Applikationen und Projekte

Freeware Applikationen

Freeware Bibliotheken

prof. Applikationen

Referenzdatensätze

Calgary Corpus

Vergleiche Calgary Corpus


Glossar

Stichwortverzeichnis


Download


www.BinaryEssence.de

Calgary Corpus


Den sogenannten "Calgary Text Compression Corpus" haben Ian H. Witten und Timothy C. Bell zusammengestellt und 1989 erstmals publiziert. Er setzt sich in seiner umfangreichen Fassung aus insgesamt 18 Dateien zusammen und repräsentiert 9 verschiedene Datentypen.


Alle Texten liegt die englische Sprache zugrunde. Kodiert sind die Daten nach dem ASCII Zeichensatz. Trotz der Bezeichnung sind in dem "Text Compression Corpus" auch Maschinenkode, wissenschaftliche Daten und Bilddaten enthalten (ca. 27%).



Datei Größe Inhalt
bib 111.261 strukturierter Text (Bibliographie, Literaturverzeichnis), Aufbau z.B. geeignet für Import von Daten in eine Datenbank
book1 768.771 Text, Roman
book2 610.856 formatierter Text, fachspezifisch
geo 102.400 geophysikalische Daten
news 377.109 formatierter Text, Skript mit Nachrichten
obj1 21.504 Programmkode (Objektdatei), ausführbarer Maschinenkode
obj2 246.814 Programmkode (Objektdatei), ausführbarer Maschinenkode
paper1 53.161 formatierter Text, fachspezifisch
paper2 82.199 formatierter Text, fachspezifisch
paper3 46.526 formatierter Text, fachspezifisch
paper4 13.286 formatierter Text, fachspezifisch
paper5 11.954 formatierter Text, fachspezifisch
paper6 38.105 formatierter Text, fachspezifisch
pic 513.216 Bilddaten (schwarz-weiß)
progc 39.611 Quellkode
progl 71.646 Quellkode
progp 49.379 Quellkode
trans 93.695 Aufzeichnung Terminaldaten
  3.251.493 Summe
  3.265.024 TAR (7-Zip)


Der Calgary Corpus hat sich mittlerweile als Standard etabliert, um verlustlose Kompressionsverfahren und -formate zu vergleichen. Im übrigen rührt der Name von der Universität in Calgary her, an der Ian Witten damals tätig war.


 <   ^   > 

Externe Links:

BinaryEssence ist nicht verantwortlich
für die Inhalte externer Internetseiten:

Download University of Calgary (FTP) []

Applikationen und Projekte Referenzdatensätze Vergleiche Calgary Corpus



Anzeigen:

Informations- und Kodierungstheorie