Подходы к измерению количества информации. Мера Хартли

2.2. Количественная мера информации р.Хартли

Подходы к измерению количества информации. Мера Хартли

Ещё в 1928 году былаопубликована статья английского инженераР.Хартли «Передача информации», в которойон попытался дать меру количестваинформации. Он исходил из того, чтоколичест­венная мера информациидолжна согласовываться с интуитивнымпредстав­лением о содержании информациив сообщении (сигнале).

Так, например,чем длиннее телеграмма, тем большеинформации она обычно содержит.Следовательно, мера информации должнамонотонно возрастать с увеличе­ниемдлительности сообщения (сигнала), которуюестественно измерять чис­лом символовв дискретном сообщении и временемпередачи в непрерывном случае.

Крометого, на содержание количества информациидолжны влиять и статистическиехарактеристики, так как сигнал долженрассматриваться как случайный процесс.

При этом Хартлиналожил ряд ограничений:

1) рассматриваютсятолько дискретные сообщения;

2) множестворазличных сообщений конечно.

3) символы,составляющие сообщения равновероятныи независимы.

Нужновыбрать такую меру, которая была быпропорциональна числу элементарныхсигналов в сообщении, то есть приращениеколичества информации составляло быdI=Ndm.Можно проделать следующие преобразования:

(2.2.)

Эта формулапозволяет определить количествоинформации в одном сообщении и носитимя Р.Хартли.

Если же все множествовозможных сообщений состоит из одного(N= m= 1), то

I(N)= log 1 = 0,

что соответствуетотсутствию информации в этом случае.

При наличиинезависимых источников информации сNN2числом возможных сообщений

I (N) = log N = log N1N2 = log N1 + log N2,(2.3.)

т.е. количествоинформации, приходящееся на односообщение, равно сумме количествинформации, которые были бы полученыот двух независимых источников, взятыхпорознь.

Однако дляпрактических целей необходимо задатьсяединицей измерения информации. Дляэтого предположим, что информация –это устраненная неопределенность.

Тогдав простейшем случае неопределенностивыбор будет производиться между двумявзаимоисключающими друг другаравновероятными сообщениями, напримермежду двумя качественными признаками:положительным и отрицательным импульсами,импульсом и паузой и т.п.

Количествоинформации, переданное в этом простейшемслучае, наиболее удобно принять заединицу количества информации. Тогда

I= – log2p= – log21/2 = log22 = 1.

Полученнаяединица количества информации,представляющая собой выбор из двухравновероятных событий, получиланазвание двоичной единицы, или бита.

Название bitобразовано из двух начальных и последнейбукв английского выражения binaryunit, что значитдвоичная единица.

Сущность двоичнойединицы количества информации можноопределить как количество информации,равное двоичному логарифму двухравновероятных возможностей, т.е.

Иными словами,одна двоичная единица представляетсобою результат выбора из двухравновероятных возможностей. Битявляется не только единицей количестваинформации, но и единицей измерениястепени неопределенности. При этомимеется в виду неопределенность, котораясодержится в одном опыте, имеющем дваравновероятных исхода.

Аналогичнымобразом, десятичная единица информациипредставляет собою результат выбораиз десяти равновероятных возможностейи выражается как

Двоичная идесятичная единицы количества информациисвязаны соотношениями для логарифмов

или

откуда следует,что на каждый десятичный знак приходится3,32 двоичных знаков и что одна десятичнаяединица количества информации содержитв 3,32 раза больше информации, чем однадвоичная единица.

Это подтверждаетсятакже тем, что при выборе из 10 равновероятныхвозможностей степень неопределенностивыше, чем при выборе из двух равновероятныхвозможностей.

Отсюда следует, что дляснятия неопределенности в первом случаепотребуется большее количествоинформации.

Так же могутбыть определены троичная, пятеричнаяи другие единицы количества информации,если использовать при этом соответствующиеоснования логарифмов. Так, например,если взять основание логарифма равныме = 2,718, то количество информации будетизмеряться в натуральных единицах

Выбор единицыизмерения количества информации зависитот характера конкретной решаемой задачи.Двоичные (бит), натуральные (нит) илидесятичные (дит) единицы соотносятсяследующим образом: 1 бит = 0,69 нит = 0,3 дит;1 нит = 1,45 бит = 0,43 дит;

1 дит = 2,3 нит = 3,3бит.

В данном пособии,в основном, используется двоичнаяединица.

Логарифмическаямера информации, предложенная Хартли,одновременно удовлетворяет условияммонотонности и аддитивности.

Сам Хартли пришелк своей мере на основе эвристическихсоображений, подобных только чтоизложенным, но в настоящее время строгодоказано, что логарифмическая мера дляколичества информации однозначноследует из этих двух постулированныхим условий.

Основным недостаткомопределения Хартли было то, что онпредлагал не различать исходы опыта,имеющие разные вероятности, относяразличие между ними к несущественным”психологическим факторам”. Темне менее, оказалось, что учитывать этифакторы необходимо, поскольку интуитивноощущалось, что редко и часто встречающийсясимвол могут нести различную информационнуюнагрузку.

Р. Хартли понимал,что сообщения имеют различную вероятностьи, следовательно, неожиданность ихпоявления для получателя неодинакова.

Но, определяя количество информации,он пытался полностью исключить фактор«неожиданности».

Поэтому формулаХартли позволяет определить количествоинформации в сообщении только дляслучая, когда появление символовравновероятно и они статистическинезависимы.

На практике этиусловия выполняются редко. Недостатокопределения Хартли спустя два десятилетияисправил математик К. Шеннон, которыйпо праву считается основателем теорииинформации.

Пример 2.12.Предположим, имеется набор из 3-х буквА, В, С. а) Составить максимальноеколичество сообщений, комбинируя подве буквы в сообщении. б) Какое количествоинформации приходится на одно такоесообщение?

Решение. а)АА, ВА, СА, АВ, ВВ, СВ, АС, ВС, СС;б) ;.

Пример 2.13.Определить количество информации иобъем информации от сообщения “Но­чьюожидается ураган ” переданному по 7элементному телеграфному коду.

Решение.Число букв k=23.Тогда количество информации равноI=23log32= 11.5 бит, а объем информации равен N= 237= 161 бит. Здесь было принято, что энтропиярусского алфавита без учета статистическиххарактеристик равна 5 бит.

Таким образом, мывидим, что объем информации, имеетбольшее значение, чем количествоинформации.

Пример 2.14.Тексты, составленные из 32 букв алфавита,передаются по телетайпу при помощи двухкачественных признаков (1 и 0). Чему равноко­личество информации, приходящеесяна одну принятую букву, на kпринятых букв.

Решение.m1число букв первичного алфавита (равно32), m2числосимволов вторичного алфавита (равно2). Для передачи 32 букв необходимо m1= m2n = 25= 32. Таким образом, количество информациина букву равно 5 бит. Количество информа­циина kпринятых букв равно 5k.

Пример 2.15.При бросании монеты сообщение о результатежребия (например, выпал орел) несет 1 битинформации, поскольку количествовозможных вариантов результата равно2 (орел или решка). Оба эти вариантаравновероятны. Ответ может быть получениз решения уравнения: 2x= 2, откуда, очевидно, следует: х = 1 бит.

Вывод:в любом случае сообщениеоб одном событии из двух равновероятныхнесет 1 бит информации.

Пример 2.16.В барабане для розыгрыша лотереинаходится 32 шара. Сколько информациисодержит сообщение о первом выпавшемномере (например, выпал номер 15)?

Посколькувытаскивание любого из 32 шаровравновероят­но, то количество информацииоб одном выпавшем номере находится изуравнения: 2х= 32.

Но 32=25.Следовательно, х= 5 бит. Очевидно, ответ не зависит оттого, какой именно выпал номер.

Пример 2.17.Задумано некоторое число N.Какое минимальное число вопросовнеобходимо задать, что бы узнатьзадуманное число.

Решение.Отгадываниечисла это случайное событие с Nисходами. Так как исходы равновероятны,то энтропия этого события равна .

Максимальноеколичество информации, которое содержитсяв одном ответе (да/нет), равно , т.е. равно одному биту.

Следовательно,минимальное число вопросов, которое необходимо задать для определениязагаданного числа определяется выражением

.

Знак равенстваимеет место в том случае если отношениелогарифмов – целое число.

Ответ:

Пример 2.18.При игре в кости используется кубик сшес­тью гранями. Сколько бит информацииполучает игрок при каждом бросаниикубика? Выпадение каждой грани кубикаравновероятно. Поэтому количествоинформации от одного результата бросаниянахо­дится из уравнения: 2х= 6.

Решение этогоуравнения: . х= 2,585 бит.

Пример 2.19.Определить количество информации,которое содержится в телевизионномсигнале, соответствующем одному кадруразвертки. Пусть в кадре 625 строк, асигнал, соответствующий одной строке,представляет собой последовательностьиз 600 случайных по амплитуде импульсов,причем амплитуда импульса может принятьлюбое из 8 значений с шагом в 1 В.

Решение.В рассматриваемом случае длина сообщения,соответствующая одной строке m= 600. Количество элементов сообщения(знаков) в одной строке N= 8.

Количествоинформации в одной строке: I= mlogN= 600 * log8, а количество информации в кадре I= 625 * I= 625*600 log8 = 1,125 106бит.

Пример2.20.Определить информацию, которую несетв себе 1-й символ в кодировках ASCII иUnicode.

Решение.Валфавите ASCII предусмотрено 256 различныхсимволов, т.е. М = 256, аI = log2 256 = 8 бит = 1байт.В современной кодировке Unicodeзаложено гораздо большее количествосимволов. В ней определено 256 алфавитныхстраниц по 256 символов в каждой. Предполагаядля простоты, что все символы используются,получим, чтоI = log2 (256 * 256) = 8 + 8 = 16 бит =2 байта.

Пример 2.21. Найтиинформационный объем слова SOS, записанногов компьютерной кодировке.

Решение.

Прикодировании букв в компьютере используетсялибо алфавит ASCII (American Standard Code for InformationInterchange — американский стандартный кодобмена информацией), состоящий из 28=256знаков, либо алфавит Unicode, мощностькоторого 216 = 65536. В слове SOS три буквы,следовательно, его информационный объем3·8=24 или 3·16=48 бит, в зависимости отиспользуемой кодировки.

Пример 2.22.Шарик находится в одной из трехурн: А, В или С. Определить сколько битинформации содержит сообщение о том,что он находится в урне В.

 Решение.Такое сообщение содержит I = log23 = 1,585 бита информации.

Пример 2.23. Определить количество уровней звуковогосигнала при использовании устаревших8-битных звуковых карт.

    Решение.К = 28= 256.

Пример 2.24.Глаз человека способенразличать порядка 4 тысяч цветов, сколькобит достаточно для представления такогоколичества?

Решение. Дляответа на вопрос задачи нужно решитьуравнение log24000= x;или эквивалентное ему 2x= 4000. Поскольку 212 = 4096, то достаточно 12бит по 4 бита на составляющие красного,зеленого и синего цвета.

Ответ:дляпредставления 4 тысяч цветов достаточно12 бит.

Пример 2.25.Пусть алфавит состоит из N=32символов. Определить максимальноеколичество информации, содержащеесяна одной странице текста (если считать,что на одной странице умещается m=1500знаков).

Решение.Предполагая, что появление любой буквыв тексте равновероятно воспользуемсяформулой Хартли:

I = m *log N=1500 * log 32 = 7500 [бит]

Пример 2.26.Допустим, что компьютер работает вграфичес­ком режиме. Используетсявидеоадаптер имеющий разрешение N= 640 * 200 точек и передающий 16 различныхцветов. Определить количествостатистической информации содержащейсяна экране дисплея.

Решение.Одна точка (пиксель) содержит I1= logNбит информации, где N– количество возможных состояний(цветов). В силу аддитивности статистическоймеры количества информа­ции

I общ. = m* logN= 640 * 200 * llog16 = 128000 * 4 = 512000 [бит] = 500 Кбит.

Пример 2.27.Какоеколичество вопросов нужно задать вашемусобеседнику, чтобы наверняка определитьмесяц, в котором он родился?

Решение.Будемрассматривать 12 месяцев как 12 возможныхравновероятных событий. Определиммаксимальное количество информации I,которую дадут ответы на все вопросы.

                                                       I=log212 =3,6 бит

Количествополученных бит информации соответствуетколичеству заданных вопросов, однако,количество вопросов может быть толькоцелым числом. Округляем до большегоцелого числа и получаем ответ: приправильной стратегии необходимо задатьнеболее 4 вопросов.

Какиеже это вопросы? Правильная стратегиясостоит в том, что вопросы нужно задаватьтак, чтобы количество возможных вариантовкаждый раз уменьшалось вдвое.

Например:

  1. Номер месяца Вашего рождения лежит в интервале от1 до 6? 

  2. Номер месяца Вашего рождения лежит в интервале: от 1 до 3 (для ответа “Да”); от 4 до 6 (для ответа “Нет”).

  3. Номер месяца Вашего рождения лежит в интервале: от 1 до 2 (для ответа “Да”); от 4 до 5 (для ответа “Нет”).

  4. Номер месяца Вашего рождения: равен 1 (для ответа “Да”);  равен 4 (для ответа “Нет”).

Ответ.Задав 4 вопроса, Вы даете правильныйответ.

Пример2.28.В сообщении 4 буквы “a”, 2 буквы “б”,1 буква “и”, 6 букв “р”. Определитьколичествоинформациив одном таком (из всех возможных)сообщений.

Решение.ЧислоNразличных сообщений длиной 13 букв будетравно величине: N=13!/(4!×2!×1!×6!)=180180.КоличествоинформацииIв одном сообщении будет равно величине:I=log2(N)=log2180180≈18(бит).

Пример 2.29.Глаз человека способенразличать порядка 4 тысяч цветов, сколькобит достаточно для представления такогоколичества?

Решение.Для ответа на вопрос задачи нужно решитьуравнение log24000= x;или эквивалентное ему 2x= 4000. Поскольку 212 =4096, то достаточно 12 бит по 4 бита насоставляющие красного, зеленого и синегоцвета.

Ответ. Для представления4 тысяч цветов достаточно 12 бит.

Пример 2.30.Какова мощность алфавита (считатьпоявление каждого знака алфавита втексте событиями равновероятным), спомощью которого записано сообщение,содержащее 2048 символов, если его объемсоставляет 10 240 бит.

Решение.Определим количество бит (количествоинформации), приходящееся на один символ:I = 10 240 бит / 2048 символов = 5 бит.

По формуле Хартлиопределим мощность (количество символов)алфавита:

N =2I= 25= 32.

Ответ.Мощностьалфавита 32 символа.

Пример 2.31.В барабане для розыгрыша лотереинаходится 32 шара. Сколько информациисодержит сообщение о первом выпавшемномере (например, выпал номер 15)?

Решение.Поскольку вытаскивание любого из 32шаров равновероятно, то количествоинформации об одном выпавшем номеренаходится из уравнения: 2I=32.

Но 32=25.Следовательно, I=5бит. Очевидно, ответ не зависит от того,какой именно выпал номер.

Пример 2.32.В корзине лежат белые и черные шары.Среди них 18 черных шаров. Сообщение отом, что из корзины достали белый шар,несет 2 бита информации. Сколько всегов корзине шаров?

Решение.Из условия можно увидеть, что количествочерных и белых шаров различное, поэтомувоспользуемся формулой Хартли длянеравновероятных событий. ОбозначимКч,Кб –количество черных и белых шаровсоответственно, К – общее количествошаров, iб– количество информации в сообщении,что из корзины достали белый шар, рб– вероятность выбора белого шара.

Основные формулы:

,К= Кчб .

С другой стороныпо формуле.

Составим и решимуравнение

, К=6+18=24.

Ответ.Всего 24 шара.

Пример2.33.Выясним, сколько бит информации несетпроизвольное двузначное число со всемизначащими цифрами (отвлекаясь при этомот его конкретного числового значения,т.е. каждая из возможных цифр можетпоявиться на данном месте, в данномразряде с одинаковой вероятностью).

Решение.Таккак таких чисел может быть всего 90(10-99), то информации будет количествоI=log290или приблизительно I=6,5. Так как в такихчислах значащая первая цифра имеет 9значений (1-9), а вторая – 10 значений (0-9),то I=log290=log29+log210.Приблизительное значение log210равно 3,32.

Итак, сообщение в одну десятичнуюединицу несет в себе в 3,32 большеинформации, чем в одну двоичную единицу(чем log22=1),а вторая цифра, например, в числе аа,несет в себе больше информации, чемпервая (если цифры а обоих разрядовнеизвестны; если же эти цифры а известны,то выбора нет и информация равна нулю).

Пример 2.34.ДНК человека можно представить какнекоторое слово четырехбуквенногоалфавита, где буквы соответствуютнуклеотидам.

Решение.Определим,какое количество информации содержитДНК, если она состоит примерно из 1.5×1023нуклеотидов.

Таккак алфавит – четырехбуквенный, каждыйсимвол слова несет log24= 2 бита информации. Следовательно, ДНКв целом позволяет хранить 3×1023бит или около 3×1010Терабайт информации.

Пример2.35.Определить собственную информацию,содержащуюся в изображении, при условии,что оно разлагается на 500 строк по 500элементов в каждой строке. Яркостькаждого элемента передается 8 квантованнымиуровнями. Различия градации яркостиравновероятны, а яркости разных элементовстатистически независимы.

Решение.Обозначимслучайной величиной Хяркость одного элемента изображения.По условию задачи все градации яркостиодинаково вероятны, т.е. p(xj)= 1/N,где N= 8 и,следовательно, собственная информацияодного элемента по формуле: I(xj)= log2N .

https://www.youtube.com/watch?v=JNZUZKsQSSc

Изображениесодержит N= 500500= 2.5105элементов.

Так как яркостиэлементов независимы, то по свойствуаддитивности информации

I(изображения)= NI(xj)= Nlog2n= 2.51053= 7.5105бит.

Пример 2.36.Определить количество информации,которое содержится в телевизионномсигнале, соответствующем одному кадруразвертки. Пусть в кадре 625 строк, асигнал, соответствующий одной строке,представляет собой последовательностьиз 600 случайных по амплитуде импульсов,причем амплитуда импульса может принятьлюбое из 8 значений с шагом в 1 В.

Решение.В рассматриваемом случае длина сообщения,соответствующая одной строке, равначислу случайных по амплитуде импульсовв ней: m= 600.

Количество элементовсообщения (знаков) в одной строке равночислу значений, которое может принятьамплитуда импульсов в строке: N= 8.

Количествоинформации в одной строке: I= mlog N= 600 log 8, а количество информации в кадре:I= 625 I = 625 600 log 8 = 1,125 106бит.

Источник: https://studfile.net/preview/2690112/page:8/

Подходы к определению количества информации. Формулы Хартли и Шеннона

Подходы к измерению количества информации. Мера Хартли

Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Формула Хартли: I = log2N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100  6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

при бросании монеты: “выпала решка”, “выпал орел”;

на странице книги: “количество букв чётное”, “количество букв нечётное”.

Определим теперь, являются ли равновероятными сообщения“первой выйдет из дверей здания женщина” и “первым выйдет из дверей здания мужчина”. Однозначно ответить на этот вопрос нельзя.

Все зависит от того, о каком именно здании идет речь.

Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),
где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, …, pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bitbinary digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений (типа “орел”—”решка”, “чет”—”нечет” и т.п.).

В вычислительной технике битом называют наименьшую “порцию” памяти компьютера, необходимую для хранения одного из двух знаков “0” и “1”, используемых для внутримашинного представления данных и команд.

Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

Что можно делать с информацией?

Информацию можно:

создавать; передавать; воспринимать; иcпользовать; запоминать; принимать; копировать; формализовать; распространять; преобразовывать; комбинировать; обрабатывать; делить на части; упрощать; собирать; хранить; искать; измерять; разрушать; и др.  

Все эти процессы, связанные с определенными операциями над информацией, называются информационными процессами.

Свойства информации.

Свойства информации:

достоверность;

полнота;

ценность;

своевременность; понятность;

доступность;

краткость;

Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений.

Достоверная информация со временем может стать недостоверной, так как она обладает свойством устаревать, то есть перестаёт отражать истинное положение дел.

Информация полна, если её достаточно для понимания и принятия решений. Как неполная, так и избыточная информация сдерживает принятие решений или может повлечь ошибки.

Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления и т.п.

Ценность информации зависит от того, насколько она важна для решения задачи, а также от того, насколько в дальнейшем она найдёт применение в каких-либо видах деятельности человека.

Только своевременно полученная информация может принести ожидаемую пользу. Одинаково нежелательны как преждевременная подача информации (когда она ещё не может быть усвоена), так и её задержка.

Если ценная и своевременная информация выражена непонятным образом, она может стать бесполезной.

Информация становится понятной, если она выражена языком, на котором говорят те, кому предназначена эта информация.

Информация должна преподноситься в доступной (по уровню восприятия) форме. Поэтому одни и те же вопросы по разному излагаются в школьных учебниках и научных изданиях.

Информацию по одному и тому же вопросу можно изложить кратко (сжато, без несущественных деталей) или пространно (подробно, многословно). Краткость информации необходима в справочниках, энциклопедиях, учебниках, всевозможных инструкциях.

Обработка информации.

Обработка информации — получение одних информационных объектов из других информационных объектов путем выполнения некоторых алгоритмов.

Обработка является одной из основных операций, выполняемых над информацией, и главным средством увеличения объёма и разнообразия информации.

Средства обработки информации — это всевозможные устройства и системы, созданные человечеством, и в первую очередь, компьютер — универсальная машина для обработки информации.

Не нашли то, что искали? Воспользуйтесь поиском:

Источник: https://studopedia.ru/4_130355_podhodi-k-opredeleniyu-kolichestva-informatsii-formuli-hartli-i-shennona.html

Подходы к измерению информации

Подходы к измерению количества информации. Мера Хартли

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

1. Подходы к измерению информации

2. Алфавитный (объемный) подход

3. Энтропийный (вероятностный) подход

4. Содержательный подход

5. Алгоритмический подход

6. Прагматический подход

7. Другие подходы к измерению информации

8. Первичные единицы

9. Единицы, производные от бита

Заключение

Список литературы

Введение

Понятие информации – одно из фундаментальных в современной науке. Наряду с такими понятиями , как вещество, пространство , энергия и время, оно составляет основу современной картины мира. Понятие «информация» является ключевым в изучении курса информатики и находит свое отражение практически во всех темах изучаемых линий.

Решая различные задачи, человек вынужден использовать информацию об окружающем нас мире. И чем более полно и подробно человеком изучены те или иные явления, тем подчас проще найти ответ на поставленный вопрос.

Часто приходится слышать, что сообщение или несет мало информации или, наоборот, содержит исчерпывающую информацию. В информатике используются различные подходы к измерению информации. Цельданной работы – изучить подходы к измерению информации.

Задачикурсовой работы:

· изучить литературу и выделить основные подходы к измерению информации,

· изучить единицы измерения информации и соотношения между ними,

· рассмотреть различные примеры на тему.

1.Подходы кизмерениюинформации

Современная наука о свойствах информации и закономерностях информационных процессов называется теорией информации. понятия “информация” можно раскрыть на примере двух исторически первых подходов к измерению количества информации: подходов Хартли и Шеннона: первый из них основан на теории множеств и комбинаторике, а второй – на теории вероятностей.

Информация может пониматься и интерпретироваться в различных проблемах, предметных областях по-разному. Вследствие этого, имеются различные подходы к определению измерения информации и различные способы введения меры количества информации.

Количество информации – числовая величина, адекватно характеризующая актуализируемую информацию по разнообразию, сложности, структурированности (упорядоченности), определенности, выбору состояний отображаемой системы.

Если рассматривается некоторая система, которая может принимать одно из n возможных состояний, то актуальной задачей является задача оценки этого выбора, исхода. Такой оценкой может стать мера информации(события).

Мера – непрерывная действительная неотрицательная функция, определенная на множестве событий и являющаяся аддитивной (мера суммы равнасуммемер).

Меры могут быть статические и динамические, в зависимости от того, какую информацию они позволяют оценивать: статическую (не актуализированную; на самом деле оцениваются сообщения без учета ресурсов и формы актуализации) или динамическую (актуализированную т.е. оцениваются также и затраты ресурсов для актуализации информации).

2.Алфавитный(объемный) подход

Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита.

Алфавит — упорядоченный набор символов, используемый для кодирования сообщений на некотором языке.

Мощность алфавита — количество символов алфавита.

Двоичный алфавит содержит 2 символа, его мощность равна двум.

Сообщения, записанные с помощью символов ASCII, используют алфавит из 256 символов. Сообщения, записанные по системе UNICODE, используют алфавит из 65 536 символов.

С позиций computer science носителями информации являются любые последовательности символов, которые хранятся, передаются и обрабатываются с помощью компьютера. Согласно Колмогорову, информативность последовательности символов не зависит от содержания сообщения, алфавитный подход является объективным, т.е. он не зависит от субъекта, воспринимающего сообщение.

Информация трактуется по-разному, например, как:

o любая сущность, которая вызывает изменения в некоторой информационно-логической модели системы (математика, системный анализ);

o сообщения, полученные системой от внешнего мира в процессе адаптивного управления, приспособления (теория управления, кибернетика);

o отрицание энтропии, отражение меры хаоса в системе (термодинамика);

o связи, устраняющие неопределённость в системе (теория информации);

o вероятность выбора в системе (теория вероятностей);

o отражение разнообразия в системе (физиология, биокибернетика);

o отражение материи, атрибут сознания, “интеллекта” системы (философия).

Если отвлечься от конкретного смыслового содержания информации и рассматривать сообщения информации как последовательности знаков, сигналов, то их можно представлять битами, а измерять в байтах, килобайтах, мегабайтах, гигабайтах, терабайтах и петабайтах.

N = 2b формула, связывающая между собой информационный вес каждого символа, выраженный в битах (b), и мощность алфавита (N):

Пример 1. Алфавит содержит 32 буквы. Какое количество информации несет одна буква?

Дано: Мощность алфавита N=32

Какое количество информации несет одна буква?

Решение: 32 = 2 5, значит вес одного символа b = 5 бит

Ответ: одна буква несет 5 бит информации.

Пример 2.Сообщение, записанное буквами из 16 символьного алфавита, содержит 10 символов. Какой объем информации в битах оно несет?

Дано: Мощность алфавита N=16

Текст состоит из 10 символов

Определить объем информации в битах.

Решение: 1. 16 = 2 4, значит вес одного символа b = 4 бита.

2. Всего символов 10, значит объем информации 10 * 4 = 40 бит.

Ответ: сообщение несет 40 бит информации (8 байт).

Пример 3.Информационное сообщение объемом 300 бит содержит 100 символов. Какова мощность алфавита?

Дано: Объем сообщения = 300 бит текст состоит из 100 символов.

Какова мощность алфавита?

Решение: 1. Определим вес одного символа: 300 / 100 = 3 бита.

2. Мощность алфавита определяем по формуле: 2 3 = 8.

Ответ: мощность алфавита N=8.

3. Энтропийный (вероятностный) подход

Этот подход принят в теории информации и кодирования. Данный способ измерения исходит из следующей модели: получатель сообщения имеет определенное представление о возможных наступлениях некоторых событий.

Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенностей называется энтропией.

Энтропия характеризуется некоторой математической зависимостью от совокупности вероятности наступления этих событий.

Количество информации в сообщении определяется тем, насколько уменьшилась эта мера после получения сообщения: чем больше энтропия системы, тем больше степень ее неопределенности.

Поступающее сообщение полностью или частично снимает эту неопределенность, следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после получения сообщения.

За меру количества информации принимается та же энтропия, но с обратным знаком.

Рассмотрим пример вычисления количества информации сообщения о наступлении одного из N равновероятных событий. Обозначим численную величину, измеряющую неопределённость (энтропию) через H.

Величины N и H связаны некоторой функциональной зависимостью:H = f(N).

Эта функция, очевидно, является возрастающей, неотрицательной и определённой при всех значениях 1, 2, …, N.

Обозначим через H1 неопределённость, имеющуюся до совершения события. Через H2 – неопределённость после наступления события. Тогда за I– количество информации об исходе опыта – примем разность неопределённостей до и после опыта: I = H1 – H2.

В случае, когда получен конкретный результат, имевшаяся неопределённость снята (т.к. H2 = 0). Таким образом, количество полученной информации совпадает с первоначальной энтропией. Неопределённость, заключённая в опыте совпадает с информацией об исходе этого опыта.

Определим функцию H = f(N). Будем варьировать N (число возможных исходов) и M (число опытов). Общее число исходов равноX=NM. Каждый исход – некоторый вектор длины M, состоящий из знаков 1, 2, …, N.

Ситуацию с проведением М опытов можно рассматривать как некую сложную систему, состоящую из независимых друг от друга подсистем – однократных опытов. Энтропия такой системы в М раз больше, чем энтропия одной системы (так называемый «принцип аддитивности энтропии»): f (NM) = Mf(N).

Прологарифмируем левую и правую части равенства X=NM. Получим:

ln X = M ln N,M =.

Подставив полученное для M значение в равенство f (NM) = Mf(N), получим:

f(X) = f(N)

Обозначив положительную константу

получим формулу:

f(x) = KlnX

Т.е. получаем: H=KlnX. Обычно принимают K= , тогда H=log2N .

Полученная формула H=log2N называется формулой Хартли.

Важным при введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при N = 2.

Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (например, бросание монеты).

Такая единица количества информации называется битом.

Все N исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна N-я часть общей неопределенности опыта: .При этом вероятность i-гo исхода Рi; равняется, очевидно, 1/N. Таким образом:

H = .

Эта же (последняя) формула принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. значения Рi могут различаться). Эта формула называется формулой Шеннона.

В жизни же мы сталкиваемся не только с равновероятными событиями, но и событиями, которые имеют разную вероятность реализации.

Например:

1. Когда сообщают прогноз погоды, то сведения о том, что будет дождь, более вероятно летом, а сообщение о снеге — зимой.

2. Если вы — лучший ученик в классе, то вероятность сообщения о том, что за контрольную работу вы получили 5, больше, чем вероятность получения двойки.

3. Если в мешке лежат 20 белых шаров и 5 черных, то вероятность достать черный шар меньше, чем вероятность вытаскивания белого.

Как вычислить количество информации в таком сообщении?

Для этого необходимо использовать следующую формулу:

i=log2(1/p)

где р – вероятность отдельного события. Это формула Хартли.

Пример 1. В корзине лежат 8 мячей разного цвета (красный, синий, желтый, зеленый, оранжевый, фиолетовый, белый, коричневый). Какое количество информации несет в себе сообщение о том, что из корзины будет вынут мяч красного цвета?

Решение.

Так как возможности вынуть мяч каждого из возможных цветов равновероятны, то для определения количества информации, содержащегося в сообщении о выпадении мяча красного цвета, воспользуемся формулой i= log2 N.

Имеем i= log28= 3 бита.

Ответ: 3 бита.

Пример 2. В корзине лежат 8 черных шаров и 24 белых. Сколько информации несет сообщение о том, что достали черный шар?

Решение:

8+24=32 – общее количество шаров в корзине;

8/32 = 0,25 – вероятность того, что из корзины достали черный шар;

i= log2 (1/0,25) =log2 4 = 2 бита.

Ответ: 2 бита

Пример 3. В корзине лежат 32 клубка шерсти. Среди них – 4 красных. Сколько информации несет сообщение о том, что достали клубок красной шерсти?

Решение:

4/32 = 1/8 – вероятность того, что из корзины достали клубок красной шерсти;

i= log2 8 = 3 бита.

Ответ: 3 бита

Пример 4. В коробке лежат 64 цветных карандаша. Сообщение о том, что достали белый карандаш, несет 4 бита информации. Сколько белых карандашей было в коробке?

Решение:

Пусть в коробке было х белых карандашей.

Вероятность того, что достали белый карандаш, равна х/64.

Количество информации сообщения о том, что достали белый шар, равно

i= log2 (64/x) бит, что по условию задачи составляет 4 бита, т.е. имеет место уравнение: log2 (64/x)=4, т.е. 64/x=24, 64/x=16, x=4,значит в коробке было 4 белых карандаша.

Ответ: 4 карандаша

4.Содержательныйподход

Согласно Шеннону, информативность сообщения характеризуется содержащейся в нем полезной информацией — той частью сообщения, которая снимает полностью или уменьшает неопределенность какой-либо ситуации.

По Шеннону, информация — уменьшение неопределенности наших знаний.

Неопределенность некоторого события — это количество возможных исходов данного события.

Так, например, если из колоды карт наугад выбирают карту, то неопределенность равна количеству карт в колоде. При бросании монеты неопределенность равна 2.

Содержательный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают по-разному.

Но если число исходов не зависит от суждений людей (случай бросания кубика или монеты), то информация о наступлении одного из возможных исходов является объективной.

Если сообщение уменьшило неопределенность знаний ровно в два раза, то говорят, что сообщение несет 1 бит информации.

1 бит — объем информации такого сообщения, которое уменьшает неопределенность знания в два раза.

N = 2i – формула для решения задач на содержательный подход к измерению информации.

N – количество возможных событий

i – количество информации

Пример 1.В коробке лежат 8 разноцветных карандашей. Какое количество информации содержится в сообщении, что достали зелёный карандаш?

N = 8 N = 2i

i – ? 8 = 2i

i = 3

Ответ: сообщение содержит 3 бита информации.

Пример 2.Сообщение о том, что ваш друг живёт на 5 этаже, несёт 4 бита информации. Сколько этажей в доме?

i = 4 N = 2i

N – ? N = 24 N = 16

Ответ: в доме 16 этажей.

5. Алгоритмический подход

Отличный от взглядов Хартли, Шеннона, Винера и Бриллюэна подход к определению понятия “количество информации”, был предложен в 1965 году академиком А.Н. Колмогоровым, который он назвал алгоритмическим.

Исходя из того, что “по существу наиболее содержательным является представление о количестве информации “в чем-либо” (Х) и “о чем-либо” (Y)” , А.Н.

Колмогоров для оценки информации в одном конечном объекте относительно другого конечного объекта предложил использовать теорию алгоритмов.

За количество информации при этом, принимается значение некоторой функции от сложности каждого из объектов и длины программы (алгоритма) преобразования одного объекта в другой.

Решение задачи определения количества информации в алгоритмическом подходе имеет общий вид и схематично выглядит следующим образом.

“Относительной сложностью” объекта Y при заданном Х будем считать минимальную длину L(P) “программы” Р получения Y из Х.

Сформулированное так определение зависит от “метода программирования”.

Метод программирования есть не что иное, как функция ц(P,X)=Y , ставящая в соответствие программе Р и объекту Х объект Y” .

Так как каждый из объектов может быть бесконечно сложным, то доказывается теорема, согласно которой относительной сложности Kц(Y|X) объекта Y, при заданном методе программирования, может быть поставлена в соответствие иная относительная сложность, полученная при другом методе программирования A(P,X), такая, что выполняется неравенство:

KA(Y|X)?Kц(Y|X)+Cц,

где Cц – некоторая постоянная программирования, не зависящая от X иY.

Учитывая, что при любых Х и Y относительная сложность KA(Y|X) является конечной величиной, а KA(Y)=KA(Y|1)можно считать просто сложностью объекта Y, А.Н. Колмогоров для оценки алгоритмического количества информации lA(X:Y) в объекте X относительно объекта Y предложил использовать формулу:

.lA(X:Y) = KA(Y)KA(Y|X). (1)

причем KA(X|X)?0 и, соответственно, lA(X:X)? KA(X).

Алгоритмическая информация (1) может принимать как положительные, так и отрицательные значения. В связи с этим А.Н. Колмогоров делает два замечания.

Во-первых, “lA(X:Y) не меньше некоторой отрицательной константы C, зависящей лишь от условностей избранного метода программирования” .

Во-вторых, “вся теория рассчитана на применение к большим количествам информации, по сравнению с которыми |C| будет пренебрежимо мал”.

Алгоритмический подход к измерению количества информации, в силу ряда объективных причин, не нашел широкого практического применения. Во-первых, как писал сам А.Н. Колмогоров, “на пути его формализации встает очевидная трудность: то, что просто описывается на одном языке, может не иметь простого описания на другом, и непонятно, какой способ описания выбрать” .

То есть алгоритмическая оценка информации зависит от выбранного метода программирования, а такой выбор, в свою очередь, по сути дела всегда имеет субъективный характер.

Во-вторых, практическое использование формулы (1) возможно лишь применительно к весьма простым объектам, имеющим математическое описание, в то время как отсутствие последнего является характерной и обязательной чертой сложных объектов. Кроме того, понятие “сложность” само по себе является относительным и зависит от уровня рассмотрения объектов.

И, наконец, в-третьих, в соответствии с теоремой Геделя о неполноте формальных систем, нельзя доказать, что минимальная длина программы L(P) преобразования X в Y, составленная на каком-либо языке программирования, действительно является объективно минимальной .

Источник: https://revolution.allbest.ru/programming/00497419_0.html

Подходы к измерению количества информации. Мера Хартли (стр. 1 из 2)

Подходы к измерению количества информации. Мера Хартли

1. Подходы к измерению количества информации. Мера Хартли.

Современная наука о свойствах информации и закономерностях информационных процессов называется теорией информации. понятия “информация” можно раскрыть на примере двух исторически первых подходов к измерению количества информации: подходов Хартли и Шеннона: первый из них основан на теории множеств и комбинаторике, а второй – на теории вероятностей.

Информация может пониматься и интерпретироваться в различных проблемах, предметных областях по-разному. Вследствие этого, имеются различные подходы к определению измерения информации и различные способы введения меры количества информации.

Количество информации – числовая величина, адекватно характеризующая актуализируемую информацию по разнообразию, сложности, структурированности (упорядоченности), определенности, выбору состояний отображаемой системы.

Если рассматривается некоторая система, которая может принимать одно из n возможных состояний, то актуальной задачей является задача оценки этого выбора, исхода. Такой оценкой может стать мера информации (события).

Мера – непрерывная действительная неотрицательная функция, определенная на множестве событий и являющаяся аддитивной (мера суммы равна сумме мер).

Меры могут быть статические и динамические, в зависимости от того, какую информацию они позволяют оценивать: статическую (не актуализированную; на самом деле оцениваются сообщения без учета ресурсов и формы актуализации) или динамическую (актуализированную т.е. оцениваются также и затраты ресурсов для актуализации информации).

Существуют различные подходы к определению количества информации. Наиболее часто используются следующие два способа измерения информации: объёмный и вероятностный.

Объёмный подход

Используется двоичная система счисления, потому что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: намагничено / не намагничено, вкл./выкл., заряжено / не заряжено и др.

Объём информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом невозмож¬но нецелое число битов.

Для удобства использования введены и более крупные, чем бит, единицы коли¬чества информации. Так, двоичное слово из восьми знаков содержит один байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта – мегабайт (Мбайт), а 1024 мегабайта – гигабайт (Гбайт).

Энтропийный (вероятностный) подход

Этот подход принят в теории информации и кодирования. Данный способ измерения исходит из следующей модели: получатель сообщения имеет определённое представление о возможных наступлениях некоторых событий.

Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределённостей называется энтропией.

Энтропия характеризуется некоторой математической зависимостью от совокупности вероятности наступления этих событий.

Количество информации в сообщении определяется тем, насколько уменьшилась эта мера после получения сообщения: чем больше энтропия системы, тем больше степень её неопределённости.

Поступающее сообщение полностью или частично снимает эту неопределённость, следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после получения сообщения.

За меру количества информации принимается та же энтропия, но с обратным знаком.

Другими, менее известными способами измерения информации являются:

Алгоритмический подход. Так как имеется много различных вычислительных машин и языков программирования, т.е.

разных способов задания алгоритма, то для определённости задаётся некоторая конкретная машина, например машина Тьюринга.

Тогда в качестве количественной характеристики сообщения можно взять минимальное число внутренних состояний машины, требующихся для воспроизведения данного сообщения.

Семантический подход. Для измерения смыслового содержания информации, т.е. её количества на семантическом уровне, наибольшее признание получила тезаурусная мера (тезаурус – совокупность сведений, которыми располагает пользо¬ватель или система), которая связывает семанти¬ческие свойства информации со способностью пользователя принимать поступившее сообщение.

Прагматический подход. Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели.

В основе всей теории информации лежит открытие, сделанное Р. Хартли в 1928 году, и состоящее в том, что информация допускает количественную оценку.

Подход Р. Хартли основан на фундаментальных теоретико–множественных, по существу комбинаторных основаниях, а также нескольких интуитивно ясных и вполне очевидных предположениях.

Если существует множество элементов и осуществляется выбор одного из них, то этим самым сообщается или генерируется определенное количество информации.

Эта информация состоит в том, что если до выбора не было известно, какой элемент будет выбран, то после выбора это становится известным.

Необходимо найти вид функции, связывающей количество информации, получаемой при выборе некоторого элемента из множества, с количеством элементов в этом множестве, т.е. с его мощностью.

Если множество элементов, из которых осуществляется выбор, состоит из одного–единственного элемента, то ясно, что его выбор предопределен, т.е. никакой неопределенности выбора нет – нулевое количество информации.

Если множество состоит из двух элементов, то неопределенность выбора минимальна. В этом случае минимально и количество информации.

Чем больше элементов в множестве, тем больше неопределенность выбора, тем больше информации.

Количество этих чисел (элементов) в множестве равно:

N = 2i

Из этих очевидных соображений следует первое требование: информация есть монотонная функция от мощности исходного множества.

Выбор одного числа дает нам следующее количество информации:

i = Log2(N)

Таким образом, количество информации, содержащейся в двоичном числе, равно количеству двоичных разрядов в этом числе.

Это выражение и представляет собой формулу Хартли для количества информации.

При увеличении длины числа в два раза количество информации в нем также должно возрасти в два раза, несмотря на то, что количество чисел в множестве возрастает при этом по показательному закону (в квадрате, если числа двоичные), т.е. если

N2=(N1)2,

то

I2 = 2 * I1,

F(N1*N1)= F(N1) + F(N1).

Это невозможно, если количество информации выражается линейной функцией от количества элементов в множестве. Но известна функция, обладающая именно таким свойством: это Log:

Log2(N2) = Log2(N1)2= 2 * Log2(N1).

Это второе требование называется требованием аддитивности.

Таким образом, логарифмическая мера информации, предложенная Хартли, одновременно удовлетворяет условиям монотонности и аддитивности. Сам Хартли пришел к своей мере на основе эвристических соображений, подобных только что изложенным, но в настоящее время строго доказано, что логарифмическая мера для количества информации однозначно следует из этих двух постулированных им условий.

Пример. Имеются 192 монеты. Известно, что одна из них – фальшивая, например, более легкая по весу. Определим, сколько взвешиваний нужно произвести, чтобы выявить ее. Если положить на весы равное количество монет, то получим 3 независимые возможности: а) левая чашка ниже; б) правая чашка ниже; в) чашки уравновешены.

Таким образом, каждое взвешивание дает количество информации I=log23, следовательно, для определения фальшивой монеты нужно сделать не менее k взвешиваний, где наименьшее k удовлетворяет условию log23k log2192. Отсюда, k 5 или, k=4 (или k=5 – если считать за одно взвешивание и последнее, очевидное для определения монеты).

Итак, необходимо сделать не менее 5 взвешиваний (достаточно 5).

2. Социальные аспекты информатики.

Термин “социальные аспекты” применительно к большей части наук, тем более фундаментальных, звучит странно. Вряд ли фраза “Социальные аспекты математики” имеет смысл. Однако, информатика – не только наука.

И впрямь, мало какие факторы так влияют на социальную сферу обществ (разумеется, находящихся в состоянии относительно спокойного развития, без войн и катаклизмов) как информатизация. Информатизация общества – процесс проникновения информационных технологий во все сферы жизни и деятельности общества.

Многие социологи и политологи полагают, что мир стоит на пороге информационного общества. В. А.

Извозчиков предлагает следующее определение: “Будем понимать под термином “информационное” (“компьютеризированное”) общество то, во все сферы жизни и деятельности членов которого включены компьютер, телематика, другие средства информатики в качестве орудий интеллектуального труда, открывающих широкий доступ к сокровищам библиотек, позволяющих с огромной скоростью проводить вычисления и перерабатывать любую информацию, моделировать реальные и прогнозируемые события, процессы, явления, управлять производством, автоматизировать обучение и т.д.”. Под “телематикой” понимаются службы обработки информации на расстоянии (кроме традиционных телефона и телеграфа).

Последние полвека информатизация является одной из причин перетока людей из сферы прямого материального производства в, так называемую, информационную сферу. Промышленные рабочие и крестьяне, составлявшие в середине XX века более 2/3 населения, сегодня в развитых странах составляют менее 1/3.

Все больше тех, кого называют “белые воротнички” – людей, не создающих материальные ценности непосредственно, а занятых обработкой информации (в самом широком смысле): это и учителя, и банковские служащие, и программисты, и многие другие категории работников. Появились и новые пограничные специальности.

Можно ли назвать рабочим программиста, разрабатывающего программы для станков с числовым программным управлением? – По ряду параметров можно, однако его труд не физический, а интеллектуальный.

Источник: https://mirznanii.com/a/309971/podkhody-k-izmereniyu-kolichestva-informatsii-mera-khartli

Понятие количества информации. Формулы Хартли и Шеннона

Подходы к измерению количества информации. Мера Хартли

Количеством информации называют числовую характеристику сигнала, отражающую ту степень неопределенности (неполноту знаний), которая исчезает после получения сообщения в виде данного сигнала.

Эту меру неопределенности в теории информации называют энтропией.

Если в результате получения сообщения достигается полная ясность в каком-то вопросе, говорят, что была получена полная или исчерпывающая информация и необходимости в получении дополнительной информации нет. И, наоборот, если после получения сообщения неопределенность осталась прежней, значит, информации получено не было (нулевая информация).

Приведенные рассуждения показывают, что между понятиями информация, неопределенность и возможность выбора существует тесная связь.

Так, любая неопределенность предполагает возможность выбора, а любая информация, уменьшая неопределенность, уменьшает и возможность выбора. При полной информации выбора нет.

Частичная информация уменьшает число вариантов выбора, сокращая тем самым неопределенность.

Связь между количеством информации и числом состояний системы устанавливается формулой Хартли.

Американский инженер Р. Хартли в 1928 г. предложил рассматривать процесс получения информации как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений.

Тогда количество информации I, содержащееся в выбранном сообщении, определяется как двоичный логарифм N:

Формула Хартли: I = log2N,

где I — количество информации в битах; N — число возможных состояний.

Ту же формулу можно представить иначе:

N = 2I.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 = 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

Пример. Человек бросает монету и наблюдает, какой стороной она упадет. Обе стороны монеты равноправны, поэтому одинаково вероятно, что выпадет одна или другая сторона. Такой ситуации приписывается начальная неопределенность, характеризуемая двумя возможностями. После того, как монета упадет, достигается полная ясность и неопределенность исчезает (становится равной нулю).

Приведенный пример относится к группе событий, применительно к которым может быть поставлен вопрос типа «да – нет». Количество информации, которое можно получить при ответе на вопрос типа «да – нет», называется битом (англ.

, bit — сокращенное от binary digit — двоичная единица). Бит — минимальная единица количества информации, ибо получить информацию меньшую, чем 1 бит, невозможно. При получении информации в 1 бит неопределенность уменьшается в 2 раза.

Таким образом, каждое бросание монеты дает нам информацию в 1 бит.

В качестве других моделей получения такого же количества информации могут выступать электрическая лампочка, двухпозиционный выключатель, магнитный сердечник, диод и т. п. Включенное состояние этих объектов обычно обозначают цифрой 1, а выключенное — цифрой 0.

Определим теперь, являются ли равновероятными сообщения “первой выйдет из дверей здания женщина” и “первым выйдет из дверей здания мужчина”. Однозначно ответить на этот вопрос нельзя.

Все зависит от того, о каком именно здании идет речь.

Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона:

I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),

где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, …, pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit — binary digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений.

В вычислительной технике битом называют наименьшую “порцию” памяти компьютера, необходимую для хранения одного из двух знаков “0” и “1”, используемых для внутримашинного представления данных и команд.

На практике чаще применяется более крупная единица — байт, равная восьми битам. Если бит — минимальная единица информации, то байт ее основная единица. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Существуют производные единицы информации: килобайт (кбайт, кб), мегабайт (Мбайт, Мб) и гигабайт (Гбайт, Гб).

§ 1 кб = 1024 байта = 210 (1024) байтов.

§ 1 Мб = 1024 кбайта = 220 (1024 x 1024) байтов.

§ 1 Гб = 1024 Мбайта = 230 (1024 х 1024 x 1024) байтов.

§ 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

Эти единицы чаще всего используют для указания объема памяти ЭВМ.

Источник: https://studopedia.su/7_19988_ponyatie-kolichestva-informatsii-formuli-hartli-i-shennona.html

ПОСМОТРЕТЬ ЁЩЕ:

Источник: https://helpiks.org/8-17694.html

Подходы к измерению количества информации. Мера Хартли

Подходы к измерению количества информации. Мера Хартли

Сохрани ссылку в одной из сетей:

1. Подходы кизмерению количества информации. МераХартли.

Современнаянаука о свойствах информации изакономерностях информационных процессовназывается теорией информации. понятия “информация” можно раскрытьна примере двух исторически первыхподходов к измерению количестваинформации: подходов Хартли и Шеннона:первый из них основан на теории множестви комбинаторике, а второй – на теориивероятностей.

Информацияможет пониматься и интерпретироватьсяв различных проблемах, предметныхобластях по-разному. Вследствие этого,имеются различные подходы к определениюизмерения информации и различные способывведения меры количества информации.

Количествоинформации – числовая величина, адекватнохарактеризующая актуализируемуюинформацию по разнообразию, сложности,структурированности (упорядоченности),определенности, выбору состоянийотображаемой системы.

Еслирассматривается некоторая система,которая может принимать одно из nвозможных состояний, то актуальнойзадачей является задача оценки этоговыбора, исхода. Такой оценкой можетстать мера информации (события).

Мера -непрерывная действительная неотрицательнаяфункция, определенная на множествесобытий и являющаяся аддитивной (мерасуммы равна сумме мер).

Меры могутбыть статические и динамические, взависимости от того, какую информациюони позволяют оценивать: статическую(не актуализированную; на самом делеоцениваются сообщения без учета ресурсови формы актуализации) или динамическую(актуализированную т.е. оцениваютсятакже и затраты ресурсов для актуализацииинформации).

Существуютразличные подходы к определениюколичества информации. Наиболее частоиспользуются следующие два способаизмерения информации: объёмный ивероятностный.

Объёмныйподход

Используетсядвоичная система счисления, потому чтов техническом устройстве наиболеепросто реализовать два противоположныхфизических состояния: намагничено / ненамагничено, вкл./выкл., заряжено / незаряжено и др.

Объёминформации, записанной двоичными знакамив памяти компьютера или на внешнемносителе информации, подсчитываетсяпросто по количеству требуемых длятакой записи двоичных символов. Приэтом невозмож¬но нецелое число битов.

Для удобстваиспользования введены и более крупные,чем бит, единицы коли¬чества информации.Так, двоичное слово из восьми знаковсодержит один байт информации, 1024 байтаобразуют килобайт (кбайт), 1024 килобайта– мегабайт (Мбайт), а 1024 мегабайта -гигабайт (Гбайт).

Энтропийный(вероятностный) подход

Этот подходпринят в теории информации и кодирования.Данный способ измерения исходит изследующей модели: получатель сообщенияимеет определённое представление овозможных наступлениях некоторыхсобытий.

Эти представления в общемслучае недостоверны и выражаютсявероятностями, с которыми он ожидаетто или иное событие. Общая меранеопределённостей называется энтропией.

Энтропия характеризуется некоторойматематической зависимостью отсовокупности вероятности наступленияэтих событий.

Количествоинформации в сообщении определяетсятем, насколько уменьшилась эта мерапосле получения сообщения: чем большеэнтропия системы, тем больше степеньеё неопределённости.

Поступающеесообщение полностью или частично снимаетэту неопределённость, следовательно,количество информации можно измерятьтем, насколько понизилась энтропиясистемы после получения сообщения.

Замеру количества информации принимаетсята же энтропия, но с обратным знаком.

Другими,менее известными способами измеренияинформации являются:

Алгоритмическийподход. Так как имеется много различныхвычислительных машин и языковпрограммирования, т.е. разных способовзадания алгоритма, то для определённостизадаётся некоторая конкретная машина,например машина Тьюринга. Тогда вкачестве количественной характеристикисообщения можно взять минимальное числовнутренних состояний машины, требующихсядля воспроизведения данного сообщения.

Семантическийподход. Для измерения смысловогосодержания информации, т.е. её количествана семантическом уровне, наибольшеепризнание получила тезаурусная мера(тезаурус – совокупность сведений,которыми располагает пользо¬вательили система), которая связываетсеманти¬ческие свойства информации соспособностью пользователя приниматьпоступившее сообщение.

Прагматическийподход. Эта мера определяет полезностьинформации (ценность) для достиженияпользователем поставленной цели.

В основе всейтеории информации лежит открытие,сделанное Р. Хартли в 1928 году, и состоящеев том, что информация допускаетколичественную оценку.

Подход Р.Хартли основан на фундаментальныхтеоретико–множественных, по существукомбинаторных основаниях, а такженескольких интуитивно ясных и вполнеочевидных предположениях.

Если существуетмножество элементов и осуществляетсявыбор одного из них, то этим самымсообщается или генерируется определенноеколичество информации.

Эта информациясостоит в том, что если до выбора не былоизвестно, какой элемент будет выбран,то после выбора это становится известным.

Необходимо найти вид функции, связывающейколичество информации, получаемой привыборе некоторого элемента из множества,с количеством элементов в этом множестве,т.е. с его мощностью.

Если множествоэлементов, из которых осуществляетсявыбор, состоит из одного–единственногоэлемента, то ясно, что его выборпредопределен, т.е. никакой неопределенностивыбора нет – нулевое количество информации.

Если множествосостоит из двух элементов, тонеопределенность выбора минимальна. Вэтом случае минимально и количествоинформации.

Чем большеэлементов в множестве, тем большенеопределенность выбора, тем большеинформации.

Количествоэтих чисел (элементов) в множестве равно:

N = 2i

Из этихочевидных соображений следует первоетребование: информация есть монотоннаяфункция от мощности исходного множества.

Выбор одногочисла дает нам следующее количествоинформации:

i = Log2(N)

Таким образом,количество информации, содержащейся вдвоичном числе, равно количеству двоичныхразрядов в этом числе.

Это выражениеи представляет собой формулу Хартлидля количества информации.

При увеличениидлины числа в два раза количествоинформации в нем также должно возрастив два раза, несмотря на то, что количествочисел в множестве возрастает при этомпо показательному закону (в квадрате,если числа двоичные), т.е. если

N2=(N1)2,

то

I2 = 2 * I1,

F(N1*N1)= F(N1) +F(N1).

Это невозможно,если количество информации выражаетсялинейной функцией от количества элементовв множестве. Но известна функция,обладающая именно таким свойством: этоLog:

Log2(N2) =Log2(N1)2= 2 * Log2(N1).

Это второетребование называется требованиемаддитивности.

Таким образом,логарифмическая мера информации,предложенная Хартли, одновременноудовлетворяет условиям монотонностии аддитивности. Сам Хартли пришел ксвоей мере на основе эвристическихсоображений, подобных только чтоизложенным, но в настоящее время строгодоказано, что логарифмическая мера дляколичества информации однозначноследует из этих двух постулированныхим условий.

Пример.Имеются 192 монеты. Известно, что одна изних – фальшивая, например, более легкаяпо весу. Определим, сколько взвешиванийнужно произвести, чтобы выявить ее. Еслиположить на весы равное количествомонет, то получим 3 независимые возможности:а) левая чашка ниже; б) правая чашка ниже;в) чашки уравновешены.

Таким образом,каждое взвешивание дает количествоинформации I=log23, следовательно, дляопределения фальшивой монеты нужносделать не менее k взвешиваний, гденаименьшее k удовлетворяет условиюlog23k log2192. Отсюда, k 5 или, k=4 (или k=5 – еслисчитать за одно взвешивание и последнее,очевидное для определения монеты).

Итак,необходимо сделать не менее 5 взвешиваний(достаточно 5).

2. Социальныеаспекты информатики.

Термин“социальные аспекты” применительнок большей части наук, тем болеефундаментальных, звучит странно. Врядли фраза “Социальные аспекты математики”имеет смысл. Однако, информатика – нетолько наука.

И впрямь,мало какие факторы так влияют насоциальную сферу обществ (разумеется,находящихся в состоянии относительноспокойного развития, без войн икатаклизмов) как информатизация.Информатизация общества – процесспроникновения информационных технологийво все сферы жизни и деятельностиобщества.

Многие социологи и политологиполагают, что мир стоит на порогеинформационного общества. В. А.

Извозчиковпредлагает следующее определение:“Будем понимать под термином“информационное” (“компьютеризированное”)общество то, во все сферы жизни идеятельности членов которого включеныкомпьютер, телематика, другие средстваинформатики в качестве орудийинтеллектуального труда, открывающихширокий доступ к сокровищам библиотек,позволяющих с огромной скоростьюпроводить вычисления и перерабатыватьлюбую информацию, моделировать реальныеи прогнозируемые события, процессы,явления, управлять производством,автоматизировать обучение и т.д.”. Под“телематикой” понимаются службыобработки информации на расстоянии(кроме традиционных телефона и телеграфа).

Последниеполвека информатизация является однойиз причин перетока людей из сферы прямогоматериального производства в, такназываемую, информационную сферу.Промышленные рабочие и крестьяне,составлявшие в середине XX века более2/3 населения, сегодня в развитых странахсоставляют менее 1/3.

Все больше тех, когоназывают “белые воротнички” – людей,не создающих материальные ценностинепосредственно, а занятых обработкойинформации (в самом широком смысле): этои учителя, и банковские служащие, ипрограммисты, и многие другие категорииработников. Появились и новые пограничныеспециальности.

Можно ли назвать рабочимпрограммиста, разрабатывающего программыдля станков с числовым программнымуправлением? – По ряду параметров можно,однако его труд не физический, аинтеллектуальный.

Информатизациясильнейшим образом влияет на структуруэкономики ведущих в экономическомотношении стран. В числе их лидирующихотраслей промышленности традиционныедобывающие и обрабатывающие отраслиоттеснены максимально наукоемкимипроизводствами электроники, средствсвязи и вычислительной техники (такназываемой, сферой высоких технологий).

В этих странах постоянно растуткапиталовложения в научные исследования,включая фундаментальные науки. Темпыразвития сферы высоких технологий иуровень прибылей в ней превышают в 5-10раз темпы развития традиционных отраслейпроизводства.

Такая политика имеет исоциальные последствия – увеличениепотребности в высокообразованныхспециалистах и связанный с этим прогресссистемы высшего образования. Информатизацияменяет и облик традиционных отраслейпромышленности и сельского хозяйства.Промышленные роботы, управляемые ЭВМ,станки с ЧПУ стали обычным оборудованием.

Новейшие технологии в сельскохозяйственномпроизводстве не только увеличиваютпроизводительность труда, но и облегчаютего, вовлекают более образованных людей.

Казалось бы,компьютеризация и информационныетехнологии несут в мир одну лишьблагодать, но социальная сфера стольсложна, что последствия любого, дажегораздо менее глобального процесса,редко бывают однозначными. Рассмотрим,например, такие социальные последствияинформатизации как рост производительноститруда, интенсификацию труда, изменениеусловий труда.

Все это, с одной стороны,улучшает условия жизни многих людей,повышает степень материального иинтеллектуального комфорта, стимулируетрост числа высокообразованных людей,а с другой – является источникомповышенной социальной напряженности.Например, появление на производствепромышленных роботов ведет к полномуизменению технологии, которая перестаетбыть ориентированной на человека.

Темсамым меняется номенклатура профессий.Значительная часть людей вынужденаменять либо специальность, либо местоработы – рост миграции населенияхарактерен для большинства развитыхстран. Государство и частные фирмыподдерживают систему повышенияквалификации и переподготовки, но невсе люди справляются с сопутствующимстрессом.

Прогрессом информатикипорожден и другой достаточно опасныйдля демократического общества процесс– все большее количество данных о каждомгражданине сосредоточивается в разных(государственных и негосударственных)банках данных.

Это и данные о профессиональнойкарьере (базы данных отделов кадров),здоровье (базы данных учрежденийздравоохранения), имущественныхвозможностях (базы данных страховыхкомпаний), перемещении по миру и т.д. (неговоря уже о тех, которые копят специальныеслужбы).

В каждом конкретном случаесоздание банка может быть оправдано,но в результате возникает системаневиданной раньше ни в одном тоталитарномобществе прозрачности личности, чреватойвозможным вмешательством государстваили злоумышленников в частную жизнь.Одним словом, жизнь в “информационномобществе” легче, по-видимому, нестановится, а вот то, что она значительноменяется – несомненно.

Источник: https://works.doklad.ru/view/SaJv3vGoWJ8.html

Vse-referaty
Добавить комментарий