120
Орыс тілінің бір әріптерінен тұратын хабарларды генерациялайтын көзді
қарастырайық (алфавитте 33 әріп). Бір әріптен тұратын жеке хабар қанша ақпарат
әкелетінің анықтайық:
I
1
= log
2
33
5 бит.
Кейбір хабарда ақпарат көлемін анықтау үшін оның символдар санын бір
символдағы ақпарат санына көбейту керек, яғни оның ақпараттық салмағына. Орыс
алфавиттің төрт әріптерінен тұратын хабар қанша ақпарат әкелетінің есептейік:
I
4
= 4 log
2
33
20 бит.
Сонымен, алфавитті тұрғыда хабардағы ақпарат көлемі хабардың мағыныса
бойынша емес, статистикалық сипаттамалары (символдар саны) бойынша бағаланады.
Хартли өлшемі хабардың дұрыс сипаттамасы болып әрқашан болмайды, өйткені кез
келген мүмкін хабардың тең ықтималдығын жобалайды. Ықтималдығы кіші хабарлардың
құндылығы жоғары. Сондықтан, кейде ақпараттың сандық бағалауының басқа тәсілін
пайдаланады. Ол нақты хабарларды генерациялау ықтималдығын еске алады, - Шеннон
бойынша ақпарат өлшемі.
Бұл ақпаратты өлшеу әдісті мазмұнды жол деп атайды.
Осы әдіске сәйкес хабарды тұтынушы алғанша ақпарат көзінің күйі кейбір
белгісіздікпен сипатталады. Бұл кезде ақпаратты алу осы белгісіздікті жояды (толық
немесе жарым-жартылай):
I =
H
баст
–
Н
соңғ
мұндағы
H
баст
– хабарды алуға дейін хабар көзін сипаттайтын белгісіздік,
Н
соңғ
– хабарды
алғанан кейін белгісіздік.
Ақпарат көзі күйінің белгісіздігі мына формула бойынша бағаланады:
1
0
2
log
N
i
i
i
p
p
H
,
мұндағы
p
i
– көздің
i-ші күйінің ықтималдығы. Қосындының алдында «минус» таңбасы
енгізілген, себебі ықтималдық шамалары дұрыс бөлшектер және теріс логарифмдер, ал
белгісіздік бағалауын «плюс» таңбамен алу керек.
Мысал қарастырайық. Бір қара және бір ақ шары бар урнадан шарларды алғанда,
белгісіздік болады
1
)
1
(
2
1
log
2
1
log
2
1
2
1
log
2
1
2
2
2
H
.
Белгісіздік бір битке тең болып шықты.
Басқа мысалды қарастырайық. Урнада жеті қара және бір ақ шар бар. Осы кезде
белгісіздік болады
бит
H
55
,
0
8
3
)
8
,
2
3
(
7
8
3
)
7
log
3
(
7
)
8
(log
8
1
)
7
log
8
(log
8
7
8
1
log
8
1
8
7
log
8
7
2
2
2
2
2
2
Белгісіздік өлшемі бірінші мысалмен салыстырғанда екі есе азайды.
Әрбір күйлердің ықтималдығы бір біріне тең болғанда белгісіздік максимал мәнін
алады және осы ықтималдықтын тарқауының өсуімен азаяды. Айта кетейік,
ықтималдықтар бір біріне тең болғанда
1
0
,
,
N
j
i
p
p
j
i
, Шеннон бойынша
ақпарат өлшемі Хартли бойынша ақпарат өлшеміне тура келеді.
Көп жағдайда ақпаратты өлшеуге алфавитты жол артық көрінеді. Кейбір файлда 1,5
мегабайт ақпарат бар немесе кейбір кітаптін бір парағына 17 килобайт ақпарат кіреді деп
айтқанда, дәл Хартли бойынша ақпарат өлшемі пайдаланады.
Ақпарат санның негізгі бірлігі бит. Бірақ тәжірибелік қолданылу үшін бұл тым ұсақ
бірлік. Одан ыңғайлы бірлік байт (byte) болып табылады, ол сегіз битке тең. «Байт» сөзге
децимал қосымшаларды «кило», «мега» және т.б. қосып одан ірі өлшем бірліктерді алуға
121
болады. Бұл кезде есте болу керек, оларды байланыстыратын көбейткіш 1000 емес, ал
1024 =2
10
.
13.2 Энтропия және белгісіздік
Сонымен, біз анықтадық, хабардағы ақпарат көлемінің өлшеуін белгісіздіктің
өзгеру негізінде жүргізуге болады. К.Шеннон белгісіздік өлшемі ретінде
энтропия
ұғымын енгізді. Энтропия
H(
m) хабардағы
m ақпарат санын анықтайды және оның
белгісіздік өлшемі болып табылады.
Хабарлар көзі ықтималдығы
p
1
,
p
2
,...,
p
n
бар түрлі хабарды
m
1
,
m
2
,...,
m
n
жасай
алады. Бұл жағдайда хабардың энтропиясы
мына формуламен анықталады
1
0
2
log
)
(
N
i
i
i
p
p
m
H
.
Осы формулада екілік логарифм пайдаландықтан, энтропия бит пен өлшенеді.
Энтропияның «физикалық» мағынасы - бұл белгісіздіктің сандық өлшемі. Мысал
ретінде үш хабарлар көздерін қарастырайық, олардың әрбіреуі тек екі әртүрлі
m
1
және
m
2
хабар генерациялайды. Бірінші көзі үшін бірінші хабардың пайда болу ықтималдығы
р(
m
1
)=0 белгілі болсын, ал екінші хабардың ықтималдығы
р(
m
2
)=1. Екінші көзі үшін
хабарлар ықтималдықтары тең, яғни
р(
m
1
)=0,5 және
р(
m
2
)=0,5. Үшінші көзі үшін хабарлар
ықтималдықтары келесі:
р(
m
1
)=0,9 және
р(
m
2
)=0,1. Хабарлар көздерінің энтропиясын
анықтайық. Бірінші көзі үшін:
H
1
= -0 log
2
0 – 1 log
2
1 = 0 – 0 = 0.
Бірінші көзінің энтропиясы немесе белгісіздігі нөлге тең. Шынында, егер екі
хабардан тек біреу ғана генерациялатыны алдын ала белгілі болса, онда ешқандай
белгісіздік жоқ.
Екінші көздің энтропиясын анықтайық:
1
)
1
(
2
1
log
2
1
log
2
1
2
1
log
2
1
2
2
2
2
H
.
Белгісіздік бір битке тең болып шықты. Енді үшінші көздің энтропиясын табайық:
H
3
= -0,9 log
2
0,9 - 0,1 log
2
0,1 -0,9 (-0,152) - 0,1 (-3,322) 0,47.
Үшінші көздің белгісіздігі екіншіден кіші, өйткені екі мүмкін болатын хабардан, біреуінің
ықтималдығы жоғары.
Энтропия ұғымы ақпаратты беру және сақтау теориясының көп есептерінде
маңызды роль атқарады. Мысалы, энтропия деректердің максимал сығу дәрежесін
анықтау үшін пайдалану мүмкін. Дәл айтқанда, егер хабарлар көзі белгілі шекті
энтропиясы
h бар жеткілікті ұзын мәтінді
n тудыратын болса, онда бұл мәтін теорияда
n h
бит шамасына дейін сығылу мүмкін. Егер
h = 1/2, онда мәтін екі есе сығылу мүмкін және
т.б.
n h мәні шек болып табылады және тәжірибеде сирек болады.
Криптография жағынан, хабар мазмұның білу үшін энтропия ашуға қажетті
символдар санын анықтайды. Егер кейбір 8-битты деректер блогы екі мүмкін болатын
хабардын (мысалы, жауаптар «Иә» немесе «Жоқ»)
біреуін сақтайтын болса,
онда бастапқы
хабардың мәнің анықтау үшін бір битты дұрыс білу жеткілікті. «Иә» және «Жоқ» сөздерді
шифрлау үшін қаншалық бит бөлінседе, энтропия немесе белгісіздік әрқашан бірден кем
немесе бірге тең болады.
13.3 Тіл нормасы және хабардың артықтығы
Әрбір тіл үшін
тіл нормасы r деп аталатын
шаманы
енгізуге болады, ол мына
формула бойынша анықталады
r =
H(
m)/
N,