Apa Itu Entropi Fail

Apa Itu Entropi Fail
Apa Itu Entropi Fail

Video: Apa Itu Entropi Fail

Video: Apa Itu Entropi Fail
Video: Entropi: Tentang Bagaimana Tidur Dapat Memperlambat Kiamat 2024, April
Anonim

Sebarang fail komputer terdiri daripada bait. Bait boleh mengambil nilai dari 0 hingga 255. Entropi maklumat adalah parameter statistik yang menunjukkan kebarangkalian terjadinya bait tertentu dalam fail.

Apa itu entropi fail
Apa itu entropi fail

Anda dapat menilai tahap entropi secara visual menggunakan histogram - sebaran kebarangkalian mengulang bait yang sama dalam fail. Dari entropi fail, kita dapat meneka jenis fail yang ada di depan kita, hanya melihat histogramnya.

Untuk demonstrasi, mari kita ambil tiga fail dari pelbagai jenis dan bandingkan histogramnya. Biarkan yang pertama menjadi fail teks (*. TXT). Histogramnya ditunjukkan dalam gambar:

гистограмма=
гистограмма=

Fail teks hanya mengandungi teks. Setiap watak teks dikodkan dengan bait tertentu sesuai dengan jadual pengekodan. Walaupun terdapat sebilangan besar jenis pengekodan, jelas terdapat sebilangan besar aksara alfanumerik, yang biasanya kurang dari 255. Oleh itu, hanya beberapa kawasan yang ditempati pada histogram pertama, dan beberapa bait sama sekali tidak.

Fail berikut akan dalam format PDF:

гистограмма=
гистограмма=

Fail ini mengandungi semua kemungkinan bait, kerana PDF dikodkan secara berbeza dari fail teks. Ia menyimpan banyak maklumat perkhidmatan: format, fon, gambar, dll. Tetapi histogramnya menunjukkan bahawa sebilangan bait berlaku dengan kebarangkalian yang hampir sama, sementara yang lain - lebih kerap daripada yang lain. Oleh itu, banyak pecah tajam pada histogram, dan secara umum ia mempunyai penampilan yang agak "compang-camping", walaupun menempati keseluruhan lebar yang tersedia.

Dan fail terakhir zip dalam format 7Z:

гистограмма=
гистограмма=

Histogram ini mempunyai dua ciri utama: pertama, semua bait dijumpai dalam fail zip dengan kebarangkalian lebih kurang sama (tepi atas yang agak rata), dan kedua, praktikalnya tidak ada ruang kosong di atas histogram, yang menunjukkan ketiadaan hampir lengkap kelebihan fail sedemikian. Oleh itu, kita dapat menyimpulkan bahawa algoritma pengarkib dengan cara khas "mencampurkan" bait fail untuk mencapai sebaran seragam maksimum mereka.

Oleh itu, entropi dalam sains komputer, seperti dalam fizik, adalah ukuran gangguan dalam sistem, dalam hal ini, gangguan dalam pembahagian bait dalam fail. Entropi membolehkan anda menilai tahap pemampatan fail dan - secara tidak langsung - mengenai jenisnya.

Disyorkan: