Дәріс №2 Ақпаратты сандық бағалау. Ақпарат санының бірлігі.
Ақпарат және кодтау теориясының негізгі және нақты міндеттерінен келесі техникалық және экономикалық проблемалар ерекшеленеді: уақытты және энергияны мүмкіндігінше аз шығындармен ақпарат беру тәсілдерін іздеу, берілудің сенімділігін арттыру, яғни ақпаратты беру жүйелерін сыртқы физикалық факторлардың әсерінен қорғау (кедергілер, байланыс желісіндегі өшулер, аппараттық істен шығулар); ақпаратты беру әдісін және кодтау әдісін таңдаудың рентабельділігін анықтау.
Болашақта қате ықтималдығы аз құрылғыны жобалаудың негізгі мүмкіндігі бар екендігі көрсетіледі. Бірақ бұл шешімнің практикалық салдарын байланыс жүйелерінің тиімділігін бағалауға мүмкіндік беретін кейбір ұғымдар мен әдістермен алдын-ала танысып қана бағалауға болады. Ол үшін, ең алдымен, байланыс арналары арқылы ақпарат беру саны мен жылдамдығын өлшей білу керек.
Ақпараттың мөлшері неге байланысты екенін байқауға тырысайық. Мысалы, шахмат тақтасында фигураның орналасқан жерін беру туралы белгілі тапсырманы қарастырыңыз. Оны екі жолдың бірімен шешуге болады: әр ұяшықты кодтау немесе тік және көлденең сандарды беру. Бірінші жағдайда 64 таңбаны көрсететін код болуы керек (екілік жүйеде оның комбинациясы алты элементтен тұрады), ал екінші жағдайда - тек сегіз таңбаны көрсететін код (екілік жүйеде оның комбинациясы үш элементтен тұрады), бірақ фигураның орналасқан жерін беру үшін екі хабарлама қажет (көлденең және тік нөмір). Осы және басқа жолмен берілген ақпарат мөлшері бірдей болады. Демек, ақпарат көзіндегі ақпараттың мөлшері оны беру әдісіне тәуелсіз. Ұяшықтың координаты туралы толық ақпаратты беру үшін хабарламаның ұзындығы бірдей болады (6 екілік элемент). Егер екінші алфавиттің сапалық белгілерінің саны әр түрлі болса, мысалы, екінші алфавиттің дискретті сапалық белгілерінің саны 64 болса, онда ұяшықтың координаты туралы кез-келген хабарламаның ұзындығы бір дискретті пакеттен тұрады. Егер екінші әдіс үшін жоғарыда қарастырылған мысалда ақпарат берілсе, онда біз білетініміздей, хабарламаның ұзындығы алтыға тең болады, ал екінші алфавитте сегіз сапалық белгілер болса, онда бүкіл хабарламаның ұзындығы екі дискретті пакетке тең болады және т.б. әрине, барлық жағдайларда ақпарат мөлшері бірдей болады. бір ұяшықтың координаты туралы айтатын болсақ, бірдей болады.
Жаңа жасушалардың координаттары туралы ақпарат беретін хабарламалар саны көбейген сайын ақпарат саны артады, яғни аддитивті шартты қанағаттандырады: хабарламаларды бір әдіспен, бір аппаратурамен, бір байланыс арнасы арқылы жіберген кезде ақпарат саны соғұрлым көп болады, біз берілетін таңбалар саны соғұрлым көп болады. Шынында да, жеделхатта неғұрлым көп сөз болса, одан көбірек ақпарат күту табиғи болады; теледидарлық сканерлеудегі жолдар саны неғұрлым көп болса, сурет сапасы соғұрлым жоғары болады; бастапқы емес функцияның нақты мәндері неғұрлым көп берілсе, соғұрлым дәлірек көбейтуге болады. Ақпараттың мөлшері мен құндылығы терминдерін шатастырмау керек. Жеделхаттағы ақпарат теориясы тұрғысынан " әже сау. Тұтас, Федя "Марста өмір бар" жеделхатынан көп немесе аз ақпарат болуы мүмкін", бұл хабарламалардың қайсысы адресат үшін бастапқы белгісіздік болғанына байланысты. Ақпарат теориясы ақпараттың құндылығын анықтаумен тікелей айналыспайды.
Хабарламаны алу әдісі қабылданған ақпарат мөлшеріне әсер етеді. Үтіктің температурасына қатысты белгісіздік саусақты үтікке тигізу арқылы да, хабарламаны тиісті кодтау қашықтығына беру арқылы да алынып тасталуы мүмкін. Сондай-ақ, хабарламаны байланыс арнасы арқылы кедергілермен және кедергілерсіз және т.б. жіберуге болады. Алайда, ақпаратты беру және алу әдісі соңғысының сипаттамасы бола алмайды, өйткені оның көзіндегі ақпарат мөлшері кодтау мен беру әдістеріне байланысты емес.
I ақпарат саны, бір хабарламамен түсірілген, Н жойылған белгісіздік k хабарлама санына көбейтіндісі ретінде есептеледі. хабарлама бастапқы алфавиттің әрпі болғандықтан, k бастапқы алфавиттің таңбалар саны ретінде қарастырылуы мүмкін.
Ақпарат теориясындағы Н белгісіздігінің өлшемі энтропия болып табылады. Егер А хабарламаларының бастапқы ансамблі (p1, p2, ..pi) ықтималдылықтағы дерексіз алфавиттің таңбаларының соңғы (а1, а2, .. аi) жиынтығымен ұсынылуы мүмкін болса, онда энтропия-бұл хабарлама көзін тұтастай сипаттайтын шама және бастапқы ансамбльдің хабарламаларының бірінің шығу көзінің пайда болуының орташа белгісіздігін білдіреді. Бастапқы ансамбльді біз бастапқы деп атаған кейбір дерексіз алфавиттің таңбалары арқылы білдіруге болатындықтан, келесі анықтама дұрыс.
Анықтама 1. Энтропия-бұл бастапқы алфавиттің символына қатысты нақты белгісіздік және алфавитті тұтастай сипаттайды.
Анықтама 2. Ақпаратты олар келгенге дейін болған белгісіздікті алып тастайтын хабарламалар алып жүреді. Бұл хабарламалар жеке немесе тәжірибе тобының нәтижесі немесе сөзбе-сөз қабылданған хабарламалар болуы мүмкін.
Ақпарат әрқашан априори мен постериори энтропиясының айырмашылығының нәтижесі болып табылады.
Ең қарапайым түрде, бұл тәжірибеге дейін (постериори) оның нәтижесінің Н1 белгісіздігі болған, тәжірибеден кейін (априори) белгісіздік неғұрлым аз болса, яғни Н1 мен Н2 арасындағы айырмашылық неғұрлым көп болса, соғұрлым көп ақпарат алынды.
Мысалы, ақпарат энтропияның айырмашылығы деген тезисті түсіну үшін біз троллейбустан шыққан алғашқы адамның жынысын анықтауға бағытталған қарапайым тәжірибені қарастырамыз. Бұл жағдайда Троллейбус а хабарламаларының көзі болып табылады, бастапқы алфавиттегі хабарламалардың бастапқы ансамблі A [м, ж] түрінде ұсынылуы мүмкін, онда осы H(X) хабарлама көзінің априорлық белгісіздігі. Егер Y оқиға орын алса-адам троллейбустың есігінен шығады, онда кейінгі белгісіздік H(X/Y) түрінде ұсынылуы мүмкін, яғни. осылайша, адам троллейбус есігінен шыққаннан кейін, кейінгі белгісіздік нөлге тең болады және тәжірибе нәтижесінде біз бастапқы хабарлар ансамблінің оқиғаларының бірінде қамтылған жеке ақпаратқа тең ақпарат аламыз. Бұл оқиғаны троллейбустың шығуында бірінші болып пайда болатын адам ретінде ұсынуға болады, Біздің тәжірибеміз үшін хабар көзі болып табылады, бірақ біз бұл туралы әлі білмейміз, өйткені оқиға болған жоқ (есік әлі ашылған жоқ). Осындай дәлелдер тек екі бірдей нәтижеге ие (мысалы, монетаны лақтыру) барлық ұқсас эксперименттерге экстраполяциялануы мүмкін. Барлық осындай жағдайларда постериори белгісіздігі нөлге тең болады. Бірақ, егер монетаны лақтырғаннан кейін ол шетіне айналса немесе троллейбус сынған болса және есік ашылмаса, онда кейінгі белгісіздік априорнаяға тең болады және алынған ақпарат мөлшері нөлге тең болады, өйткені негізгі Шарт орындалмады: оқиға болған жоқ. бұл жағдайда
H (X / Y) = H (X) және I(X, Y) = H(X) - H(X) = 0.
Егер сіз X x1,x2,..,xm1 -ді бастапқы алфавиттегі хабарламалардың бастапқы ансамблі деп белгілесеңіз; Y y1,y2,..,ym2 – X ансамблінің таңбаларын екінші алфавитте кодтайтын көптеген кодтық сөздер, содан кейін H (X/Y) анық емес кодтаудың нәтижесі немесе байланыс арнасы арқылы беру кезінде ақпараттың жоғалуының нәтижесі болуы мүмкін. Жалпы жағдайда, H (X/Y) бақылаушыға Y оқиғасы болғанын анықтағаннан кейін қалған белгісіздікті алып тастау үшін бақылаушыға жетіспейтін ақпарат мөлшері ретінде түсіндіруге болады.
H (X/Y) белгісі келесі дәрістерде қарастырылатын шартты энтропия үшін қолданылады. H (X/Y) есептеу әдістері де егжей-тегжейлі сипатталған. Осылайша (әзірге қатаң дәлелдерсіз), I (X, Y) орташа өзара ақпарат X энтропиясы мен Y белгілі болғандағы X шартты энтропиясы арасындағы айырмашылыққа тең:
I(X; Y) = H(X) --H (X/Y). (3)
Егер Y ансамблі бір мәнді x1 y1; x2 y2; .. xm ym; беру кезінде байланыс арнасында шығындар болмайды, содан кейін ансамбльдің кез-келген әрпінің келуі нақты не берілгеніне қатысты кез-келген белгісіздікті жояды. Сонда H(X/Y) түрінің белгісіздігі нөлге тең болады. Бұл жағдайда ансамбльдің тәуелсіз компоненттерімен
LY=kH (X) (4)
Ақпарат пен белгісіздік кері тәуелділікпен байланысты болуы керек сияқты. Бірақ біз ақпаратты алынған белгісіздік өлшемі ретінде қарастырамыз. Әрбір жаңа хабарламаның (бастапқы алфавиттің символы) келуімен, ол келгенге дейін болған жалпы белгісіздік орта есеппен осы алфавитке тән энтропия мөлшеріне азаяды.
Энтропия-ықтималдық функциясы р. оқиғаның ықтималдығы неғұрлым жоғары болса, оның пайда болуы немесе болмауы туралы белгісіздік азаяды. Нөлдік немесе нөлге жақын ықтималдылықты оқиғаның болмауының үлкен ықтималдығы ретінде қарастыруға болады. Бұл жағдайда р = 1 және р=0 оқиғаларының орындалу фактісіне қатысты ерекше белгісіздік болмайды.
Бұл кезеңде біз p=0-ден p = 1-ге дейінгі аралықта энтропияның өзгеруін сипаттайтын заңды әлі негіздей алмаймыз. Толық сенімділікпен екі оқиға үшін осы мәннің максимумы p1 = p2 = 0,5 нүктесінде болады деп айтуға болады, яғни олардың кез-келгенінің нәтижесін болжау қиын болған кезде.
Екі априорлы тең ықтимал оқиғалардың кез-келгенінің ықтималдығын арттыру жалпы белгісіздікті төмендететіні анық. р1 1; р2 0 (және керісінше), Н 0 жағдайда да. Жоғарыда келтірілген дәлелдер H = f(p) және бұл дөңес функция деп болжауға мүмкіндік береді. Екінші жағынан, дәл осындай дәлелдер кез-келген ықтимал күйден ауытқу, оқиғалар санына қарамастан, H (X) энтропиясын төмендететінін айқын көрсетеді, мұндағы = Xx1,x2,..,xm. – бұл оқиғалар көрсетілетін алфавит. Бұл өз кезегінде келесі тұжырымды тұжырымдауға мүмкіндік береді.
Тұжырым 1. Априорлы тең ықтимал оқиғалар үшін осы оқиғалардың нәтижесінде алынған ақпарат мөлшері кез-келген оқиғаның ықтималдығы жоғарылаған сайын азаяды.
Мәлімдеменің нәтижесі – берілген X оқиғасында жасалған ақпарат р (X) ықтималдылыққа кері пропорционалды болып табылады:
(5)
(5) өрнегі Х оқиғасының аяқталу ықтималдығының төмендеуі осы оқиғаның pх орындалу ықтималдығының артуы ретінде қарастырылған жағдайда әділ болады сонда (5) келесідей болады:
+ =1 болуы шарт
Теорема 1. Егер ақпарат ықтималдық функциясы болса, онда бұл функция тек логарифмдік болуы мүмкін.
Дәлелдеме. Ықтималдылыққа сәйкес, егер x1,x2,..,xm - жұптасып үйлеспейтін кездейсоқ оқиғалар, олардың біреуінің пайда болу ықтималдығы олардың ықтималдығының қосындысына тең:
p (x1,x2,..,xm)=p(x1) +p(x2)+..+p(xm)
тек логарифмдік функция келесі шартты қанағаттандырады
f[p(x1)p(x2)..p(xm)]= f[p(x1)]+f[p(x2)]+..+f[p(xm)]
өйткені көбейтінді логарифмі көбейткіштер логарифмдерінің қосындысына тең.
Ақпарат мөлшерінің логарифмдік өлшемін 1928 жылы американдық ғалым Р. Хартли ұсынған. Р. Хартли ақпарат мөлшерінің логарифмдік өлшемін алу кезінде келесі пайымдауларды қолдана алады.
Хабарламадағы n элементтері бойынша алфавиттің m таңбаларын біріктіру арқылы алуға болатын N хабарламалар саны,
(6)
Мысалы, екі таңбаны біріктіре отырып, сегіз хабарламаның n = 3, он алты - n= 4, отыз екі – 5 және т.б. жіберуге болады, осылайша хабарламалар саны N, және онымен бірге берілетін ақпарат Саны хабарламадағы элементтер санына экспоненциалды тәуелділікте болады. Сондықтан N ақпарат мөлшерінің өлшемі ретінде тікелей қолданыла алмайды.
Р. Хартли ақпарат санының өлшемі ретінде мүмкін таңбалар тізбегінің логарифмін қабылдауды ұсынды:
(7)
Логарифмнің негізі таңдалған ақпарат көлеміне байланысты. Еркін логарифмдерді қолдануға болатын өрнектерде Логарифмнің негізі қойылмайды.
Ақпарат мөлшері өлшемінің мұндай көрінісі аддитивтіліктің сұранысына сәйкес келеді, бастапқы алфавиттегі таңбалар санына ықтимал код комбинациялары санының тәуелділігінің экспоненциалды сипатын көрсетеді, Вебер - Фехтнердің негізгі психофизиологиялық Заңына сәйкес келеді S = K log E және статистикалық термодинамикадағы Нт= k log энтропияға арналған Больцманның классикалық формуласымен сәйкес келеді.; S-қабылдау; K – тәжірибенің сипатына байланысты кейбір тұрақты; E - қозу; NT - термодинамикалық энтропия; k-тұрақты; - жүйенің берілген күйінің ықтималдығы. Мұндай сәйкестіктер кездейсоқ емес. Олар осы құбылыстардың табиғатының ортақтығымен түсіндіріледі; қарастырылған барлық жағдайларда логарифмдік тәуелділік бекер емес.
Байланыс арналары арқылы ақпарат беру кезінде бұл жеке хабарлама мүмкін болатын хабарламалардың белгілі бір санынан таңдалады. Жақында хабарлама жібергенде, бұл біреуін таңдау туралы осы топтан қарапайым нәрсе-адресат үшін априорлы тең болатын екі өзара ерекше хабарлама арасындағы таңдау екені анық. Басқаша айтқанда, қарапайым таңдау "иә - жоқ" дилеммасын шешуден тұрады, оны шешудің нәтижесін екі сапалық белгімен беруге болады: оң және теріс импульстар, екі жиілік пакеттері, Импульс және үзіліс - жалпы жағдайда 0 және 1 сигналдары. Осы қарапайым жағдайда берілген ақпарат мөлшері ақпарат санының бірлігі болып саналады. Ақпарат санының бірлігі екі мүмкін болатын оқиғалардың таңдауы болғандықтан, бұл екілік бірлік немесе бит (ағылшынша екілік didgit сөздерінен - екілік бірлік).
Келесі мәселелерді шешкен кезде: трамвайда алынған билеттің цифрларының қосындысы жұп бола ма, метродан ер немесе әйел шығады ма, монетаны лақтырған кезде бүркіт немесе решка бола ма - алынған ақпарат мөлшері бір екілік бірлікке тең болады, өйткені қарастырылған міндеттердің әрқайсысында біз екі мүмкін оқиғаны таңдаумен айналысамыз. Студент Иванов ертең дәріске келе ме, жоқ па деген мәселені шешкен кезде, Егер Иванов дәрістердің 50% - ын жүйелі түрде өткізіп жіберген болса, 1 биттік ақпаратты алуға болады, өйткені бұл жағдайда тәжірибенің максималды белгісіздігі болады. Егер бұл студент барлық дәрістерге жүйелі түрде қатысса, онда ол ертең дәріске келетіні туралы хабарламада ерекше жаңалық болмайды, ақпарат мөлшері і биттен аз болады.
Егер ақпарат санының таңдалған бірлігі 1 бит екілік бірлік болса, онда ақпараттың мөлшерін I = log2 N таңбаларының мүмкін болатын реттілігі санының екілік логарифмінің көмегімен анықтау орынды болып көрінеді (егер іс жүзінде он тең мүмкін болатын таңдау жиі кездесетін болса, онда ақпарат санының бірлігі үшін Ондық бөлшектерді таңдау ыңғайлы болар еді және өрнектегі Логарифмнің негізі 10 алыңыз).
Егер ақпарат санының таңдалған бірлігі 1 бит екілік бірлік болса, онда ақпараттың мөлшерін I = log2 N таңбаларының мүмкін болатын реттілігі санының екілік логарифмінің көмегімен анықтау орынды болып көрінеді (егер іс жүзінде он тең мүмкін болатын таңдау жиі кездесетін болса, онда ақпарат санының бірлігі үшін Ондық бөлшектерді таңдау және өрнектегі Логарифмнің негізі 10 деп алу ыңғайлы болар еді).
Логарифмдердің қасиетінен екені белгілі, онда осыдан
Егер ақпаратты есептеу кезінде табиғи логарифмдерді қолдану ыңғайлы болса, онда ақпарат санының бірлігі бір табиғи бірлік болады (1 нат). Табиғи бірлік екілік бірлікке келесі қатынаспен байланысты: 1 нат/символ = 1,443 бит/символ.
Сегіз тең әріптен тұратын алфавиттің бір әрпіне АРНАЛҒАН АҚПАРАТ мөлшері I = log2 8 =3 бит/символ, яғни алфавиттің ұзындығынан бір әріпті таңдағанда алынған белгісіздік өлшемі үш екілік бірлікке тең. Физикалық тұрғыдан алғанда, берілген алфавиттің кез-келген символын таңдау үшін үш рет "Иә" немесе "жоқ" (0 немесе 1) таңдау жеткілікті.
Мұны екілік кодтағы символдар мен аналогтарды білдіру және 9-суретте көрсетілген принцип бойынша таңдау жасау арқылы оңай көруге болады. Көріп отырғаныңыздай, таңдаудың алғашқы тармақтары 0 - ден 1-ге дейін, ал бірінші таңба сол жақта, ал бірінші 0-де оң жақта қалған барлық кодтық комбинациялар. Содан кейін топтардың әрқайсысында таңдау жасалады, сол жақта екінші таңба 1, ал оң жағында екінші таңба 0 болатын кодтық комбинациялар қалады. Үшінші таңдаудан кейін сегіз таңбадан тұратын кез-келген код әрпі бірегей анықталады. Егер сіз осы кодтық ағашты жалғастырсаңыз, 16 таңбалы кодтың кез-келген таңбасын беру үшін төрт таңдау, 32 таңбалы бес және т. б. қажет екеніне көз жеткізе аласыз.
m негізі бар кодты құру (екілік кодтар-бұл тек ерекше жағдай) m-таңбалы ағашты іздеуге балама (кодтық сөздер-бұл ағаштың жоғарғы жағынан негізге дейінгі жолда кездесетін сапалық белгілердің тізбегі). Кодтық сөздерді қабылдау-беру кезінде әр таңбаның келуі кодтық сөздердің бастапқы жиынының қайсысының берілгендігінің белгісіздігін азайтады (тең мүмкін бастапқы алфавитті білдіреді). Белгісіздіктің жалпы төмендеуі хабарламадағы таңбалар санына логарифмдік тәуелділікте болады. Ұзындығы бірдей кодтармен берілетін хабарламалардың символына ақпараттық жүктеме код негізінің өсуімен артады. Егер сіз үш хабарлама алсаңыз, сәйкесінше үш таңбадан тұратын негіз 2. 3 және 10, содан кейін: А) бірінші хабарлама үшін бірінші таңбаның келуі сегізден төрт нұсқаны, екінші таңбаның келуі төрт нұсқаның екеуін, үшіншісі мүмкін болатын екі нұсқаның біреуін алып тастайды; б) екінші хаб арлама үшін бірінші таңбаның келуі мүмкін 27 нұсқаның 18 нұсқасын, екіншісі - тоғыздан алтысын, үшіншісі - үштен екісін алып тастайды; в) үшінші хабарлама үшін бірінші таңба 1000 нұсқаның 666 нұсқасын алып тастайды; екіншісі - 334 нұсқаның 224 -і ; үшіншісі-оннан тоғызы. Үш таңбамен бірінші хабарлама сегіз хабарламадан алу мүмкіндігі туралы белгісіздікті алып тастады; екіншісі – 27 - нің бірі; үшіншісі-хабарламаның бірдей ұзындығымен 1000 хабарламаның біреуін алу мүмкіндігі туралы белгісіздік алынып тасталды. Бұл хабарламалардың символына ақпараттық жүктеме әр түрлі болатыны анық.
Тұжырым 2. Бір кодпен берілген ақпараттың екі түрлі өлшем бірлігі жоқ.
Тұжырым 3. Қабылданатын ақпарат мөлшерінің өлшем бірлігі қабылданған хабарламалар көрсетілетін код негізіне тең.
Мәлімдемеден, ақпараттың өлшем бірлігі оны беретін кодтардың негіздері қанша болса, сонша болуы мүмкін.
Энтропияны өлшеу кезінде Логарифмнің негізі ақпарат мөлшерін өлшеу бірлігіне тең болуы керек.
натурал логарифмді үздіксіз хабарламалардың энтропиясын, жалпы жағдайда жабық термодинамикалық жүйенің Больцман энтропиясын есептеу үшін қолдану керек, мұнда бастапқы әртүрлілікті бүтін санмен анықтау мүмкін емес энтропияның экспоненциалды сипатын атап өту керек.
Егер бастапқы алфавиттің берілген m таңбаларының саны қуат қатарының сандарының бірі болса, онда ақпарат мөлшері m2 дәрежесімен анықталады.
Көп позициялы кодтарда (негізі 2-ден көп) m3 көп болған кезде, мәліметтер санының бірлігін М негізі бар логарифм жүйесінен таңдалған логарифм жүйесіне ауысудың тиісті модулінсіз қолдануға болмайды, мысалы, негізі 2
Бұл жағдайда бит ақпараттың мөлшерін өлшеу үшін әмбебап бірлік бола алады, оны қабылдау тұрғысынан да, оның қазіргі заманғы технологияның сипатына сәйкестігі тұрғысынан да ыңғайлы.
Енді энтропия ұғымына оралайық, ол тәжірибеге, оқиғаға, хабарламаға, күйге және т.б. орташа белгісіздік болып табылады, сонымен бірге бастапқы алфавит жүйенің элементтерін, оқиғаларды, тең емес тарату заңы бар тілдік алфавиттерді білдіретін жалпы жағдайды есте ұстаймыз.
I-ші тәжірибенің, күйдің, тең емес алфавиттерге арналған әріптердің энтропиясы туралы айту мүмкін емес, егер әріп, күй, тәжірибе ықтималдылықты құрайтын әріптердің, күйлердің, эксперименттердің Бірі болса
энтропия-бүкіл алфавитті сипаттайтын шама. log pi мәні ештеңе айтпайды,сонымен қатар біз кейбір тең емес оқиғамен, хабарламамен, жалпы жағдайда кейбір тең емес дерексіз алфавиттің әріптерімен айналысамыз X x1,x2,..,xm алфавитімен берілген оқиғаның ықтималдық қатынасы толық топты құрауы керек, яғни егер олар жұптасып сәйкес келмесе, онда сынақтың әр қайталануында олардың кем дегенде біреуі болуы керек. Екінші жағынан, егер оқиғалар x1, x2,... xm толық топты құрайды, содан кейін p(x1) + p(x2)+..+ p(xm) = 1.. Сондықтан 0< р(xi)< 1 ықтималдығы бар жеке оқиғаны, 0< р(xi)< 1 ықтималдығы бар жеке І-ші оқиғаның Энтропинін қарастыруға болмайды.
Біркелкі емес ықтималдықтағы алфавиттің энтропиясы туралы айтатын болсақ, алфавиттің әр әрпінің оқиғалардың толық тобын құрайтын барлық басқа әріптермен ықтималды байланысын ескермеуге болмайды. Сондықтан кез-келген алфавиттің әрпіндегі энтропияны математикалық күту ретінде қарастыру керек М- log р(xi)
(8)
Біз өрнектің әділдігін дәлелдейік (8).
Теорема 2. Дискретті эргодтық хабарлама көзінің энтропиясы бастапқы ансамбльдің хабарлама көзінің шығуында пайда болу ықтималдығын бөлу функциясының математикалық күтуіне тең.
Дәлелдеме. Егер хабарлама көзі алфавитінде к1 символ x1, к2 символ x2, кi символ xi, km символ xm болса, онда бастапқы жиын элементтерінің жалпы саны
(9)
Хабарламада і-ші белгісі бар таңбалардың пайда болу ықтималдығы-рі, ал , , ....., бастапқы жиынның таңбаларының бірлескен пайда болу ықтималдығы
(10)
Х Алфавиттегі N хабарламалардың шексіз саны кезінде ki/k мәні і белгісімен х таңбасының пайда болу ықтималдығын сипаттайды, яғни N ki/kpi кезінде нақты алфавитке байланбай жазуға мүмкіндік береді
(11)
ki мәнін (10)-өрнекке қойсақ
(12)
(5) және (12) ескере отырып, i үшін өрнек келесідей ұсынылуы мүмкін:
(13)
1 теоремасына сәйкес f (p) логарифмдік функция болғандықтан, онда
Бір мәнді кодтау, таңбалар арасында өзара тәуелділіктің болмауы және байланыс арнасында кедергілердің болмауы жағдайында I= kH, - log pi шамасының математикалық күтімі.
Бұдан
(14)
(14) қатынасын Шеннон таңбалар мәндерінің пайда болу ықтималдығы бар хабарламадағы ақпараттың орташа мөлшерін анықтау үшін алды. Тең символдармен, яғни рі = 1/m кезінде Шеннон формуласы Хартли формуласына өтеді
(15)
(15) -өрнек (7) - ден біршама ерекшеленеді. Осы жағдайды түсіндіру үшін біз бастапқы және қайталама алфавит ұғымдарына ораламыз және мысалды қолдана отырып, бастапқы және қайталама алфавиттердің сапалық белгілерінің саны арасындағы байланысты қарастырамыз.
Мысал 1. Украин алфавитінің 32 әрпінен тұратын мәтіндер телетайп арқылы екі сапалық белгі арқылы беріледі: мұндай сәлемдеменің болуы немесе болмауы. Қабылданған әріптердің бір әрпіне келетін ақпарат мөлшері қандай?
Шешім,
Бастапқы алфавиттің сапалық белгілерінің саны m1 = 32; екінші алфавиттің сапалық белгілерінің саны m2 = 2. Екі сапалы белгілерді қолдана отырып, 32 әріпті беру үшін оларды хабарламада бес симполмен біріктіру керек, өйткені
демек, екінші реттіктегі хабарлама ұзындығы n = 5.
Бастапқы әліпбиге қатысты әріпке тиесілі ақпарат саны
I=log2 m, = log2 32 = 5 бит.
Екінші ретті әліпбиге қатысты әріпке тиесілі ақпарат саны
k қабылданған әріптердің ақпарат саны
(16)
(16) -өрнек (7) және (15) өрнектер арасында қайшылықтардың жоқтығын растайды.
Ақпарат ұғымы хабарлама алғанға дейін болған белгісіздіктің жойылуымен байланысты. Хабарлама берілгенге дейін белгісіздік болған сайын, қабылданған хабарламада ақпараттың мөлшері соғұрлым көп болады.
Урнада 10000 шар бар делік: 9999 қара және бір ақ. Біз шарды алып тастаймыз, шардың түсі туралы хабарламаны қандай да бір шартты қабылдау пунктіне жібереміз, шарды қайтадан жәшікке саламыз, шарларды араластырамыз және процедураны қайталаймыз, қара немесе ақ шардың алынатындығы туралы хабарлама алу ықтималдығы сәйкесінше р1= 0,9999 және р2 = 0,0001 болады. Бұл ретте берілетін ақпарат Саны
Сондықтан, доптың қандай түсті шар алынатыны алдын-ала болжау қиын емес, өйткені біз тәжірибенің нәтижесіне сенімдіміз. Алынған ақпараттың мөлшері шамалы. Егер біз жауапқа алдын-ала сенімді болсақ, онда жауап нөлдік ақпаратты алады.
Егер қораптағы доптардың мысалында 5000 қара және 5000 ақ болса, онда хабарламаның мазмұнын болжау қиын болар еді. Бұл жағдайда белгісіздік максималды болады, өйткені қара және ақ шарлардың пайда болу ықтималдығы бір-біріне тең: p1=p2=0,5. Бұл ретте алынған ақпараттың саны
Априорлық белгісіздік неғұрлым көп болса, оны алып тастағанда соғұрлым көп ақпарат алынады. Бұл тұрғыда белгісіздік оның қасиеттерін зерттеу кезінде ақпарат мөлшерін бағалаудың ыңғайлы өлшемі болып табылады.
Тәжірибеден кейін, қандай таңба (немесе таңбалар тобы) берілгендігі, жүйенің элементі (немесе бүкіл жүйе) қандай күйде екендігі туралы мәселе шешілген кезде, белгісіздік нөлге тең болады. Осылайша, егер ақпаратты беру кезінде ақпараттық шығындар болмаса, онда бір мәнді кодтау жағдайында хабарлама символына ақпарат мөлшері Н-ге тең болады, ал k таңбаларын беру кезінде ақпарат мөлшері I= kH болады.
"Ақпарат мөлшері" және "ақпарат көлемі"ұғымдарын ажырату керек. Ақпарат Саны қайталану санының экспонента бойынша азаяды, қайталау санының логарифмі сияқты.
Мұндай ақпарат көлемі жоқ. Бұл сандық деректерді, мәтіндерді құрайтын қабылданған белгілердің саны туралы болуы мүмкін. Дәл осы мағынада экономистер "ақпарат көлемі"терминін жиі қолданады.
Демек," ақпарат көлемі " қайталанулар санына байланысты емес (бір мәтінді қайта оқыған кезде оның ақпараттық мазмұны тез төмендейді және белгілер саны өзгеріссіз қалады).
Ақпарат саны бастапқы әліпбиге қатысты, ал "ақпарат көлемі" екінші әліпбиге қатысты есептеледі.
Ақпараттың қол жетімділігі бастапқы алфавиттің ықтималды сипаттамаларына байланысты, ал көлемі байланысты емес. "Ақпарат көлемі" екінші реттік алфавиттегі хабарламаның ұзындығына байланысты n және келесіге тең
Q = kn
Мысал 2. Бес таңбалы екілік кодты қолдана отырып, 350 әріптен тұратын орыс мәтінін беру кезінде ақпараттың көлемі мен санын анықтаңыз
Шешімі: орыс алфавитінің энтропиясы әріптер арасындағы өзара тәуелділікті ескерместен 4,358 бит/әріпке тең, содан кейін ақпарат мөлшері
I=kH=- 350 * 4,358 бит/әріп≈ 1525,3 бит.
Екінші алфавиттегі ұзындық n = 5 ек. Таңба, "ақпарат көлемі"
Q = kn = 350 * 5 ек. таңба= 1750 ек. Таңба
Егер келесі шарттар орындалса, Ақпарат саны салыстырмалы бірліктердегі көлемге тең болады:
1) Бастапқы алфавиттің таңбалары хабарламаларда бірдей ықтималдылықпен кездеседі; бастапқы алфавиттің таңбаларының саны екі дәреженің бүтін дәрежесі, егер екінші алфавит екілік болса және m2 > 2болған жағдайда m1 бүтін дәрежесі; 2) тең емес алфавиттер үшін мұндағы n бүтін.
Барлық басқа жағдайларда салыстырмалы бірліктердегі ақпарат көлемі ақпарат мөлшерінен көп болады.
Егер m2 > 2 болса, онда ақпарат саны мен "көлемін" салыстыру кезінде ақпарат мөлшерін есептеу формуласында Логарифмнің негізі m2-ге тең болуы керек, ал тең ықтимал хабарламаларды беру кезінде ақпарат көлемі мен мөлшері тек m1=mn2 мүмкін болған жағдайда ғана мүмкін болады . m1mn2 кезінде хабарламаларды бір мәнді декодтау мүмкін емес.
Достарыңызбен бөлісу: |