Информацията – абстракция, редукция и избор

Ако отидете в Сливен, непременно вижте жакардовия стан в музея. От тези станове тръгва мечтата за универсална информационна машина, довела до създаването на компютъра век и половина и по-късно. Изобрението на Жозеф Мари Жакард използвало перфокарти като шаблон за създаването на различни тъкани. Чарлз Бабидж и Ада Байрон били впечатлени – не от тъканите, а от системата за кодиране и нейното ниво на абстракция. Точно тази идея за алгоритъм (последователност от операции) виждаме в недовършените проекти за изчислителна (Диференциална, а след това Аналитична) машина на Бабидж и в „програмите” на Ада.

Научаваме това от книгата на Джеймс Глейк „Информацията. История, Теория, Прилив” – един всеобхватен почти до невъзможност опит да се опише дългият път, който изминава обработването, съхранението и предаването на информация:

  • От африканските говорещи барабани до азбуката на Морз (единствената значима разлика в техния принцип на работа е в излишество на думи, предавани чрез барабаните*);
  • От първия речник на Робърт Каудри (1604 г. , 2500 думи, нуждаещи се от обяснение, при 60 000 думи в английския по онова време и 1 милион сега – границите на езика са динамични) до Уикипедия;
  • От логаритмичните таблици до алгоритмичната теория на Андрей Колмогоров;
  • И най-накрая – от бита до гена и кюбита (квантовия бит).

Накратко, всички технологии и изразни средства на информацията – от писмеността до компютъра. Свързващата линия е абстракцията, обобщаването и редукцията, кодирането и дешифрирането, привеждането на многообразието от форми и значения във вид, удобен за логаритмуване, или по израза на Глейк – готов за рутинизиране.

Главният герой на „Информацията”, може би неочаквано, е Клод Шанън, а Бабидж и Алън Тюринг са негови подгласници, заедно с Курт Гьодел и още цяла плеяда учени, отразени подробно или мимоходом. Защо Шанън, а не Тюринг или Норбърт Винер?

Защото Шанън достига през 1948 г. до крайната форма на редукция и абстракция – битът. It from Bit (информацията е първа, всичко идва след това), „рапира” по-късно физикът Джон Арчибалд Уилър.

Ето как изглежда това в описанието на Шанън, неизбежно повлияно от работата му като шифровчик и изследовател в лабораторията ан Bell: Количеството информация (Н или ентропията на Шанън) зависи от това колко варианта на избор има в дадена селекция на събития. Ако вероятностите са равни, количеството информация, което всеки символ носи, е логаритъм от броя на възможните символи (например броя на буквите в азбуката). Според формулата на Хартли H=n logs, а според версията на Шанън формула на Шанън , където pi е вероятността на всяко съобщение. Резултатът е бинарно число (бит), най-малкото възможно количество информация, което изразява количеството несигурност при хвърляне на монета или друго събитие от типа Да-Не. При хвърлянето на монета имаме две възможности с равна вероятност – p1иp2, всяка равна на½; логаритъм от ½ е -1 и оттук количеството информация Н е 1 бит. Една буква, избрана от азбука с 32 символа, носи 5 бита,1000 знака (при набор от 32 знака) носят 321000 възможни съобщения, а логаритъм от това число дава 5000 бита. На практика количеството информация е дори по-малко, поради статистическата структура на езика (излишеството, което Шанън оценява на 50%). Затова всеки нов знак (буква) в едно съобщение носи по-малко информация – 2.3 бита, а не 5.

Информацията е несигурност, казва Шанън. Ако можете да отгатнете следващия символ (на основание на формула или закономерна повтаряемост), той не носи нова информация. Милион хвърляния на монета обаче носят възможно най-много информация. Истината, твърди Глейк, лежи по средата, където се преплитат случайността и моделът.

Тази трактовка на информацията е шокираща. Самият Шанън не се интересува за смисъла на съобщението. Значението няма значение (достатъчно е само да се отдели сигналът от шума), комплексността се определя от минималния размер на програмата, не от нейната стойност.

„Добре темперирано пиано” на Бах (600 ноти) в изпълнението на Глен Гулд е само 135 млн. бита и може да бъде компресирана чрез MIDI протокол до няколко хиляди бита. Чарлз Бенет предлага друг измерител на стойността на съобщението според контекта, различен от количеството информация – логическата дълбочина. Предложението на Бенет не е свързано с полезност или субективна оценка, а с количество работа. Стойността на съобщението се състои в това, „която може да се нарече покрито излишество – частите, които са предвидими със затруднение, нещата , които получателят може по принцип да пресметне, без да му е казано, но само чрез значителен разход на пари, време или изчисления.”

Но ако търсите в тази книга енциклопедични познания, ще се разочаровате и това важи както за аматьорите, така и за професионалистите в областта на информатиката, математиката, генетиката, физиката, лингвистиката.

Глийк не ви предлага дефиниции и класификации, не ви засипва с факти, които ще забравите веднага щом затворите книгата. Няма да научите много за конструкцията на машината на Бабидж, нито за законите на ентропията и математическата логика. Но ще разберете какви съмнения са тревожели Ада Байрон и ще съжалявате за това, че срещата на Курт Гьодел и Грегъри Чейтин е пропаднала, а заедно с това и една възможна нова формулировка на непълнотата.

В „Информацията” ще намерите също историята за откриването на ДНК, разказана почти като роман – с акцент върху откриването, не върху понятията (голяма част от които – например, имената на базите са спестени). Вместо да ви засипе с информация, „Информацията” ще ви разкаже за мемите (културния аналог на гените), за паралелното изобретяване на телеграфа или за изследванията на Лурия и Уолтър Онг върху оралните култури и неспособността за абстрактно мислене така, че да ви се прииска да потърсите повече факти и концепции по темата в интернет. Доброволно.

И това като че ли прави книгата на Глейк задължително четиво за заразените с вируса на любопитството.

* – Говорещите барабани са възможни, тъй като африканските езици са тонални. Но при „превода” от говоримия език на езика на барабаните, се губи информация. Отчасти това се компенсира с тайминга, но най-вече с пояснителни изрази, които уточняват еднакво звучащите думи. По същия начин излишеството става неизбежно в зората на комуникациите, за да противодейства на шума в телефонната слушалка, но също и при разцвета им, защото кратките форми носят фатално объркване (Мetadone и Metadate са различни лекарства). Оказва се също, че излишните повторения са характерни и за генетичния код.


The Information: A History, A Theory, A Flood by James Gleick