본문 바로가기
IT - 과학

정보이론 : Information Theory

by SB리치퍼슨 2016. 6. 8.

정보이론 : Information Theory




참조파일 : http://www.aistudy.com/control/information_theory.htm

Information  Theory

 

정보에 관한 수학적 이론. 일상용어로서의 정보는 <어떤 사항에 관한 알림>을 뜻하지만, 정보이론에서 다루는 정보는 통신·제어 시스템에서 전송·수신되는 과학이나 공학의 대상을 뜻한다. 즉 정보량이나 정보원(情報源) 에 수학적인 정의를 부여하고 통신로(通信路)의 정보전송용량, 정보원에서 발생하는 통신문(메시지)의 능률적 부호화, 예측 등을 수학적인 입장에서 연구한 것이다. 이처럼 정보를 자연과학·공학의 대상으로 연구해야 한다고 가장 먼저 제창한 사람은 Norbert Wiener 였다. 그는 제 2 차세계대전중 고사포의 제어에 관한 문제를 다루면서, 레이더와 고사포로 구성되는 제어시스템 안에서 정보의 흐름이 중요한 작용을 한다는 것, 더 나아가 인간의 신경계와 운동에 관해서도 이와 비슷한 시각이 적용될 수 있다는 것 등을 발견하고 정보가 과학의 중요한 대상이 됨을 지적하였다. 그러나 수학을 이용하여 구체적으로 정보이론을 체계화한 사람은 Claude Shannon 이다. 그는 1948년 논문 《통신의 수학적 이론 : The Mathematica1 Theory of Communication》을 벨전화연구소의 기관지에 발표하였는데 그 뛰어난 이론체계는 많은 각광을 받게 되었다. 섀넌 자신은 전기통신공학이 전문이어서 전기통신을 추상화하여 정보이론으로 체계화하였지만 그 모델은 인간과 인간, 인간과 기계, 기계와 기계 등 모든 커뮤니케이션 과정에 적용될 수 있는 것이었다. 그래서 실제로 전기통신공학뿐 아니라 언어학·사회학·생물학·의학·경제학 등 모든 학문 영역에 커다란 영향을 미치고 있다. .............

섀넌이 확립한 정보이론은 주로 정보를 운반하고 있는 기호의 확률적 성질에 착안한 것이다. 그런데 이 확률적인 수량화가 음악연구에서도 일찍이 받아들여져 음악에 내재된 요소들을 분석하는 데 적용된 바가 있다. 가장 대표적인 것이 1930년대에 수학자 G.D. 버코프의 <미적척도(aesthetic measure)>에 관한 연구이다. 그는 이미 정보이론의 정식화 이전에, 명확한 순서로 음악의 객관적 특징을 계량하여 통일과 복잡성의 비(比)에 따라 이 척도의 값을 구하고 나아가 같은 값이 되도록 하는 창작도 시도하였다. 또 정보이론이 학계에 제출될 무렵에는, 음악의 시뮬레이션이나 작곡가 사이의 개인 양식의 비교 등을 시도하는 이도 있었다. 이처럼 정보이론을 이용하여 음악의 요소들을 분석하고자 했던 일련의 노력들은, 박자구조에서의 강박(强拍)·약박(弱拍)의 구분과 같이 분석대상의 음이 등가(等價)가 아닌 경우가 많으므로 그다지 성공적이지는 못하였다. 그러나 음악 인지를 모델로 응용한 것이나 분석결과를 합성할 수 있도록 하는 정량적 분석을 가능케 한 것, 그리고 음악의 의미론에 관계 없이 분석이 이루어졌다는 것 등이, 정보이론에 의한 연구를 표방하지 않는 영역에까지 커다란 의의를 부여하였다. 한편 정보이론의 적용에 성공한 각 분야에서는 신호이론·패턴인식이론·언어이론·인공지능이론 등이 전개되었는데, 특히 언어구조에 주목한 N. 촘스키 등에 의해 언어이론이 체계화되었으며 그 외에 자연어처리 (Natural Language Processing) 를 목적으로 하는 의미론도 제시하였다. 인공지능 (Artificial Intelligence) 연구와의 관련에서는 학습기구·추론기구·지식구조 등을 체계화하는 데 중요한 역할을 하고 있다. 또 로보트공학에서는 패턴인식 (Pattern Recognition) 특히 화상분석(畵像分析) 분야가 연구대상이 되는 등, 넓은 의미에서의 정보이론은 정보과학 및 정보공학의 모든 기초분야를 포함하여 앞으로의 전개가 기대되고 있다. ..........  (Yahoo 백과사정 : 정보이론)

term :

제어 (Control)   사이버네틱스 (Cybernetics)   정보이론 (Information Theory)   Claude Shannon   Norbert Wiener   

site :

Wikipedia : Information Theory

여기에서 말하는 정보란, 신문의 뉴스나 특종기사와 같은 정보가 아니라, 문자 ·음성 ·화상(晝像) 및 생체의 유전자 등 넓은 의미의 정보를 뜻한다. 정보는 문자의 경우 종이와 잉크, 음성의 경우 공기의 소밀파(疎密波), 라디오 ·텔레비전에서는 전파 등과 같이 그것을 표시하기 위하여 약간의 물질과, 그것을 전달하기 위하여 에너지가 필요하다. 그러나 그 작용은 물질이나 에너지와는 다른 추상적인 개념이며, 어떤 의미에서는 물질이나 에너지를 제어하는 것으로도 생각할 수 있다.

협의의 정보이론에서는 정보의 내용이나 인간감정의 작용 등에 관하여는 논의하지 않으며, 정보를 순수하게 공학적으로 다루어 그 형식적 외관, 즉 부호화(符號化)된 정보의 전달 등에 관해서만 논의한다. 이 부분은 특히 통신이론이라고도 불린다. 이에 대하여, 넓은 뜻으로는 사이버네틱스 패턴(cybernetics pattern) 인식(認識), 학습이론 ·언어이론, 오퍼레이션 리서치(operation research) 등의 제분야와 밀접하게 관련된 광범위한 학문체계를 뜻한다.

정보이론은 통신방식의 발달과 더불어 발전하였다. R.V.L.하트리는 1920년대에 k종류의 부호를 n개 늘어놓음으로써 이루어지는 계열의 하나가 가지는 정보량은 배합의 수 kn종의 대수(對數)인 k=n log k에 의해서 가장 합리적으로 표시됨을 밝혔다. 이것이 정보량에서의 엔트로피(entropy)의 개념이다....., N.위너의 상관기(相關器) ·예측기(豫測器)의 이론 등 사이버네틱스의 일환으로서의 여러 이론이 정보이론의 발전상 중요한 성과로 꼽힌다. 정보이론을 가장 완전하게 체계적으로 확립한 사람은 벨 연구소의 C.E.섀넌이다. 섀넌은 정보를 확률과정으로서 파악, 정보량을 확률과정론에 도입하여 넓은 의미에서 정의하고, 잡음에 의한 영향을 고려하였으며, 정보량으로서의 엔트로피라든가 정보로(情報路)의 통신용량의 개념 등 많은 새로운 개념을 도입하였다.

정보이론의 통신공학상의 주된 응용은 정보의 양의 측도(測度:measure)를 정하는 일, 각종 통신방식의 통신로의 용량을 정하고, 필요한 정보를 요구되는 전송속도로 전달할 수 있도록 설계하는 일, 잡음에 의한 오전송(誤傳送)을 없애는 부호화의 연구, 예측 및 여파(濾波)의 이론을 이용하여 잡음에 파묻혀 있는 신호를 검출하는 일 등이다.

창조, 그 넌센스의 가장자리 : 샤논의 정보이론 (information theory) 에 관한 설명이다...... 

샤논은 1948년 "통신의 수학적 이론"(A Mathematical Theory of Communication)이라는 혁명적인 한편의 논문을 발표했다.벨연구소의 연구원이었던 그는 전화,전보,라디오 등에서 통신상의 잡음의 문제를 해결하기 위한 이론적 기초로써 이 문제를 연구했다.이것은 2차세계대전 동안 암호해독에 종사했던 그의 경력이 큰 도움이 되었다.  이 논문은 정보를 수량적으로 다루는 방법을 고찰하여 "정보량"(information content)의 정의를 세우고 이것을 통해 통신의 효율화를 비롯한 정보전달의 여러 가지 문제를 해결할 수 있는 이론적 기초를 제공했다.  

샤논은 정보단위로서 2진법 또는 비트를 택했다.비트는 갤런,온스,인치가 각 부피,무게,길이의 측도인 것처럼 정보량의 측도이다.1비트는 2가지의 똑같은 확률을 가진 메시지 가운데 하나의 선택이다."그것이 이것이냐?"는 질문에 대해 "예" 또는 "아니오"의 답이 가능하다."예"는 메시지를 받은 사람의 마음속에 있는 모든 불확실성을 제거해주는데 왜냐하면 그는 가능한 두 선택지 가운데 어느 하나가 답이라는 것을 알고 있기 때문이다."아니오"라는 답도 모든 불확실성을 제거해주는데 답이 첫 번째 것이 아니라 두 번째 것이라는 것을 알 수 있기 때문이다. 

이것은 단지 2개의 부호-"예"는 1,"아니오"는 0-로 되어있기 때문에 아주 융통성 있는 코드이다. 1은 무선 또는 전신 채널을 통해 전기적 임펄스의 형태로 송출하고 0은 임펄스가  송출되하지 않도록 하는 방식으로 전달할 수 있다.또는 "온"(on),"오프"(off)의 스윗치 형태로 표현할 수도 있다.비가 오고 있는지 아닌지 애매하다면 "비가 오고 있는가?"라고 물으면 된다.1또는 0의 송출이 답을 제공해줄 것이다.똑같은 것이 동전을 던져서 앞,뒤 어느것이 나올 것인가의 선택에,룰렛에서 붉은 것 또는 검은 것이 나올 것인가의 선택에,짝수가 나올 것인가 홀수가 나올 것인가의 선택에도 적용가능하다. 

다음 카드 맞추기 게임을 생각해 보자. 


"여기 세로 가로 4장씩 16장의 트럼프가 있다.이중 한 장만 머릿속에 점찍어 두시오" 

"예,점찍었습니다" 

"그것은 상단에 있는가?" 

"그렇습니다" 

"그럼 상단의 오른쪽 반에 있는가?" 

"아닙니다" 

"그럼 왼쪽 반의 상단에 있는가?" 

"아닙니다" 

"그럼 하단의 오른쪽에 있는가?" 

"그렇습니다" 

"당신이 점찍은 것은 크로바3이군요" 

 최종적으로 그 답을 알기위해서는 다음 세가지 조건이 필요하다. 

첫째,카드의 수.여기서는 16장이므로 아무런 정보도 없는 상황에서 알아맞힐 확률은 1/16이다. 

둘째,상대의 대답의 종류.여기서는 예,아니오 두 종류만 허용된다. 

셋째,질문횟수.여기서는 4회이다.16장의 카드에서 특정 카드를 알아맞히는데는 4회의 질문이 필요하다. 

이 셋종류의 수치는 다음과 같은 수식으로 표현된다. 

24 = 16 

이것은 일반적으로 다음과 같이 쓸 수 있다. 

W = 2n 

여기서 W는 카드의 수이고 n은 질문횟수이다.카드의 수가 알려지면 알고자하는 것을 확정지우는데 필요한 질문의 수가 결정된다.4회의 질문으로 16장의 카드속에서 한 장을 알아맞힐 수 있다.이것은 거꾸로 말하면 16장의 카드에서 1장을 알아맞히는데는 4회의 질문이 필요하다.이것을 수식을 나타내면 log216=4이다.

이것을 일반식으로 나타내기 위해서 양변에 log를 취해서 n에 대해서 정리하면 된다. 

logW = n log2 → n = logW/log2

     n = log2W 

앞서의 예에서 카드의 수는 16이므로 log216이 되어 n은 4가 된다.이 n이 정보량이다.이것의 단위가 비트(bit)인데 비트란 두가지 가운데 하나를 고르는 정보량의 단위다.그러므로 16장의 카드에서 어떤 특정 카드를 고르는 정보는 4비트이다.샤논은 이것을 확률적 방식으로 표현했다.16장 가운데 1장을 고를 확률은 1/16이므로 이것을 n = -log21/16로 표기하면 그 값 n은 앞서와 같이 4이다.

일반적으로 어떤 사상의 확률을 p라고 했을 때 이 n을 확률을 사용해서 표현하면 다음과 같다. 

  n = -log2P 

이 식을 사용해서 다음의 경우 정보량을 구해 보자.

주사위를 던져서 짝수의 눈이 나타날 사상을 E1,2의 눈이 나타날 사상을E2,어느 것이 나타날지 알 수 없다는 사상을 E3라 할 때 각 사상의 정보량은 얼마일까? 

짝수의 눈의 경우 확률 P(E1)은 1/2이고 그것의 정보량 n은 -log21/2=1 즉 1비트이다 .눈이 2가 나올 확률 P(E2)은 1/6이고 그것의 정보량 n은 -log21/6=2.584962..비트이다.주사위 눈이 어느것인지 알수 없다는 것은 주사위 눈이 1,2,3,4,5,6 중 어느것일 것이라는 것이므로 그것의 확률P(E3)=1이다.그러므로 그것의 정보량 n은 -log21,즉 0이다. 

눈이 2가 나올 정보량은 2.584962..비트라는 것은 무엇을 의미한는 것일까?그것을 확정짓기 위해 최대 3회의 질문이 필요하다는 것이다.(운이 좋다면 2회로 확정될 수 있다) 즉 6개의 눈을 임의로 두 무더기로 나누고 이것이냐고 묻는다.만일 아니라면 나머지 무더기 3개중에 하나인 셈이다.이것을 다시 둘로 나누는데 하나는 2개이고 다른 하나는 1개이다.2개인 것을 지적하면서 이것이냐고 묻는다.만일 아니오라면 나머지 1개가 찾고 있는 그것으로 확정된다.2회 질문으로 완료됨으로 2비트이다.만일 예라면 또 한번의 질문이 필요함으로 3비트가 된다.그러므로 2비트와 3비트 사이의 중간에 있는 값인 2.58..비트가 그것의 정보량이다.이것을 통해 분명해지는 것처럼 정보량이란 그 사상에 대해 모르는 정도에 대한 양이라고 할 수 있다.이것을 엔트로피라고 하는데 여기서 이 샤논의 정보량은 볼츠만의 엔트로피와 같은 의미임이 드러난다.  

그런데 우리는 지금까지 각 사상이 동일한 확률로서 발생한다고 가정했다.붉은 공과 흰공이 각 1개씩 있을 때 그것의 정보량은 1비트이다.그러나 8개의 붉은 공과 2개의 흰공이 한 상자에 들어 있을 때 그것의 정보량은 몇 비트인가?1비트라고 할 수 없는데 붉은공과 흰공의 확률이 다르기 때문이다.이 때는 각 사상의 정보량을 평균함으로써 그 계의 정보량을 얻을 수 있다.이것은 다음식으로 표현된다. 

n =  -P1log2P1 - P2log2P2 

10개 가운데 8과 2의 확률은 각각 P1=8/10.P2=2/10이므로 정보량은 다음과 같다. 

-4/5log2(4/5)-1/5log2(1/5)=0.32....비트가 되어 등확률일 경우 보다 "정보량이 적다." 이 말의 의미를 오해하지 말아야 하는데 이것은 그만큼 모르는 정도 즉 엔트로피가 적다는 것이다.이것의 의미를 분명히 하기 위해서 다음의 예를 보자. 

영어에서 각 알파벳(공백포함)은 단어에서 동일한 확률로 발생하는 것이 아니다.영어사전을 보면 e가 발생빈도가 가장 높고,z가 빈도가 가장 낮다.아래에 각 알파벳의 발생빈도가  나와 있는데 이것을 이용해서 알파벳의 정보량을 구해 보자. 

문자

발생확률

문자

발생확률

공백

0.1859

N

0.0574

A

0.0642

O

0.0632

B

0.0127

P

0.0152

C

0.0128

Q

0.0008

D

0.0317

R

0.0484

E

0.1031

S

0.0514

F

0.0208

T

0.0796

G

0.0152

U

0.0228

H

0.0467

V

0.0083

I

0.0575

W

0.0175

J

0.0008

X

0.0013

K

0.0049

Y

0.0164

L

0.0321

Z

0.0005

M

0.0198

 

 

n = -0.0819 log0.0819 -0.0642 log0.0642 - .....        -0.0005 log0.0005 = 4.08비트. 

이것을 수식으로 간단히 표현하면 다음과 같다. 



만일 모든 알파벳이 똑같은 확률로 발생한다면(이 경우 엔트로피가 가장 높다.) 정보량은 log227=4.754887..비트이다.영어알파벳은 발생빈도를 달리함으로써 정보량 즉 엔트로피를 줄이고 있음을 알 수 있다.여기서 실제 정보량(엔트로피) 4.08을 최대정보량(최대엔트로피) 4.754887..로 나눈 값 0.848을 "상대 엔트로피"(relative entropy)라고 하고 1에서 이것을 뺀 값을 "린던던시"(redundancy)라고 한다.영어 알파벳의 리던던시는 1-0.848=0.152이다. (redundancy : 여분, 과잉, 쓸데 없는것의 의미. 컴퓨터에서는 "그것이 없어도 전체 정보의 본질적인 뜻이 변하지 않는 정보"를 의미한다.)

일반적으로 상태의 수(가능경우의 수 즉 선택지)가 많을수록 엔트로피가 커질 것이다.그러나 상태의 수가 대단히 커서 겉보기에는 큰 엔트로피를 가질 것 같은 정보원에서도 각 상태들의 확률분포에 따라 엔트로피가 줄어들 수 있다.언어의 경우 각 알파벳 마다 빈도를 달리함으로써 엔트로피를 상당히 줄이고 있다.이 감소의 정도를 리던던시라고 한다. 

우리의 컴퓨터 자판기의 키는 모두 똑같은 크기로 되어 있다.원숭이가 이 자판기를 제멋대로 두드린다면 여기서 의미있는 문장이 만들어질 가능성은 거의 없다.베넷(W.R.Bennet)은 세익스피어의 햄릿의  "죽느냐,사느냐 그것이 문제로다."(To be,or not:that is the problem)는 문장을 만들어 내는 데는 1조마리의 원숭이가 초당 10개의 키를 두드리는 속도로 시행한다고 가정했을 때 우주가 존재해온 시간의 1조배가 걸린다는 계산결과를 얻었다. 

그러나 자판기의 키의 크기가 서로 다르다면 사정은 달라진다.예컨대 빈도가 높은 e 키는 가장 크게 하고, t,r,s키는 중간크기로.그리고 x나 z키는 아주 작게 한 자판기가 있다고 하자.원숭이는 제멋대로 키를 두드리겠지만 그렇게 만들어진 문장은 앞서처럼 완전히 제멋대로는 아닐 것이다.이것은 키의 비대칭적 크기가 리던던시를 생성시킴으로 엔트로피를 상당히 줄여 놓았기 때문이다.이 자판기로 원숭이가 "죽느냐,사느냐 그것이 문제로다."를 타이프해서 우리를 깜짝 놀라게 할지 모른다. 

알파벳의 빈도를 달리함으로써 엔트로피를 줄이는 이 방법을 1차근사라 하는데 이외에 엔트로피를 줄이는 많은 방법이 있다. 리던던시의 또 다른 형태는  단어 속에 어떤 철자가 나타날 확률이 그것에 선행하는 철자에 의존하는 방식이다.한 예로 e앞에는 i가 온다. 다만 e다음에 c가 올 경우는 예외이다.그래서 주어진 철자의 열에 후속하는 철자를 예측하기가 쉽다. 절대적인 것은 아니지만 th다음에 모음이 올 확률이 높다. 또 q가 주어지면  그 다음 a,u가 올 확률은 거의 100%이다.  

샤논은 영어텍스트에서 리던던시의 양을 산출하려는 몇가지 방법을 시도했다. 그는 예측가능성을 만드는 과외의 정보를 제거함으로써 문장의 메시지를 압축하기 위해서 암호에 관한 그의 지식을 사용했다.그는 무작위적으로 글자를 타이프해서 쓰레기문장을 만들었다.그리고 나서 리던던시의 규칙들을 부가시켜감으로써 그 문자열의 통계적 분포가 영어 문자열의 그것에 점점 근접해 가도록 만들었다..........

데이터 압축의 기초이론은 지금부터 약 50년전인 1948년에 샤논에 의해 시작되었다. 샤논은 주어진 정보를 통신하거나 기록하는데 최저 몇비트의 데이터가 있으면 좋을까하는 문제에 대하여 논의를 하여 정보에 포함된 여분인 부분을 제거한 본질적인 정보의 양으로 엔트로피로 불리는 것을 도입하였다. 그리고, 원래의 정보를 잃지않게 데이터압축을 한 경우, 압축의 한계가 엔트로피로 정하여 지는 것을 증명하였다. 즉, 아무리 이상적인 데이터 압축을 시행하여도 엔트로피로 정하여지는 사이즈보다 작게 되지 않는 것, 또, 만약 이 최소사이즈보다 작게 압축한 경우에 원래의 정보를 잡음없이 복원할 수 없다는 것을 보였다.













반응형

댓글