Movatterモバイル変換


[0]ホーム

URL:


Ir para o conteúdo
Wikipédia
Busca

Teoria da informação

Origem: Wikipédia, a enciclopédia livre.
Esta página cita fontes, mas não cobrem todo o conteúdo
Esta páginacita fontes, mas quenão cobrem todo o conteúdo. Ajude ainserir referências (Encontre fontes:Google (N • L • A • I • WP refs)  • ABW  • CAPES).
As referências deste artigonecessitam de formatação. Por favor, utilizefontes apropriadas contendo título, autor e data para que o verbete permaneçaverificável.

Ateoria matemática da informação estuda a quantificação, armazenamento e comunicação dainformação. Ela foi originalmente proposta porClaude E. Shannon em 1948 para achar os limites fundamentais no processamento de sinais e operações de comunicação, como as decompressão de dados.[1] No entanto, o termo “informação”, em geral, é usado como um substantivo abstrato de massa para denotar qualquer quantidade de dados, código ou texto armazenado, enviado, recebido ou manipulado em qualquer meio. A história do termo “informação” quanto dos vários conceitos a ele associados é complexa e o significado do termo “informação” varia em diferentes contextos.

[2]

Definição

[editar |editar código]

Em um artigo divisor de águas, publicado por Claude E. Shannon intitulado"A Mathematical Theory of Communication", que apresentou uma forma de medir informação. Agora essa teoria tem várias aplicações nas mais diversas áreas, incluindoinferência estatística,processamento de linguagem natural,criptografia,neurociência computacional,evolução ecomputação quântica.[3]

A medida chave em teoria da informação é aentropia. A entropia é o grau de aleatoriedade, de indeterminação que algo possui. Quanto maior a informação, maior a desordem, maior a entropia. Quanto menor a informação, menor a escolha, menor a entropia.[4] Dessa forma, esse processo quantifica a quantidade de incerteza envolvida no valor de uma variável aleatória ou na saída de um processo aleatório. Por exemplo, a saída de cara ou coroa de uma moeda honesta (com duas saídas igualmente prováveis) fornece menos informação (menor entropia) do que especificar a saída da rolagem de um dado de seis faces (com seis saídas igualmente prováveis). Algumas outras medidas importantes em teoria da informação sãoinformação mútua,informação condicional ecapacidade de um canal.[5]

Aplicações de tópicos fundamentais da teoria da informação incluem compressão sem perdas de dados (comoZIP), e compressão com perdas de dados (comoMP3 eJPEG).

Essa teoria é considerada uma das fundadoras das ciências da comunicação[6]. Um dos criadores da teoria da informação,Weaver, defende que comunicação é o processo de transmissão plena de uma ideia[7]. E para isso a informação deve solucionar três níveis de problemas: técnico, semântico e de influência. Enquanto a maior parte das pessoas acredita que o principal aspecto da comunicação é a interpretação (nível semântico) ou o efeito (problema de influência), a teoria matemática da comunicação traz as questões técnicas para o centro da discussão. Esse nível envolve tudo que diz respeito à precisão na transmissão de informação que parte do emissor e vai até o receptor através de um sinal, seja de rádio, telefone ou televisão.[5] Sua importância se justapõe à dos outros dois níveis de problemas, porque eles dependem inevitavelmente da eficácia na transmissão das mensagens.

O campo está na intersecção da matemática, estatística,ciência da computação, física, neurobiologia eengenharia elétrica. Seu impacto é crucial, por exemplo, no sucesso das missões da sondaVoyager no espaço, no entendimento de buracos negros e da consciência humana, como na teoria de integração da informação (do inglês,Integrated Information Theory) proposta por Giulio Tononi.[5]

Definição técnica da informação

[editar |editar código]

O termo "informação" especifica (sob o contexto dateoria da informação) o valor-surpresa de determinado conteúdo (ou mensagem) que consegue diminuir a quantidade de incerteza que existe em algum meio físico anteriormente à chegada do conteúdo informativo.[8][9][10][11] Colocando de outro modo, informação especifica o quanto a ignorância ou incerteza previamente existente foi reduzida em um meio assim que este recebeu a mensagem informativa. Usualmente, a consequência da mensagem informativa é tornar a incerteza previamente existente em certeza.[9]

Por exemplo, suponhamos que você precise identificar um certo indivíduo em uma lista composta por 30 pessoas. Você somente pode receber respostas do tipo Sim ou Não (respostas binárias). Perguntas como "É homem ou mulher?" e "Tem cabelo loiro?" me dão informações que diminuirão minha incerteza sobre qual indivíduo preciso achar. Em outras palavras, após eu encontrar o ser que estou procurando, a incerteza previamente existente se transformará em certeza.

A informação consiste em um estado (ou configuração) particular dos elementos que compõem um determinado meio que tem a capacidade de afetar esse próprio meio ou qualquer outro. Isso é o mesmo que dizer que a informação é uma propriedade que um meio pode possuir, e designa sobretudo os estados que podem resultar em algum efeito útil para alguma finalidade.[8][10][12][13][14]

Contexto histórico

[editar |editar código]

O marco que estabeleceu a teoria da informação e chamou imediatamente a atenção mundial foi o artigoA Mathematical Theory of Communication escrito porClaude Shannon de julho a outubro de 1948.

Antes deste artigo, algumas abordagens teóricas ainda que limitadas vinham sendo desenvolvidas nos laboratórios da Bell, todas implicitamente assumindo eventos de igual probabilidade. O artigoCertain Factors Affecting Telegraph Speed deHarry Nyquist escrito em 1924 contém uma seção teórica que quantificainteligência e a velocidade de transmissão pela qual ela pode ser transmitida por um sistema de comunicação, estabelecendo a relaçãoW=Klogm{\displaystyle W=K\log {m}}, ondeW{\displaystyle W} é a velocidade de transmissão da inteligência,m{\displaystyle m} é o número de níveis de tensão para cada intervalo de tempo, eK{\displaystyle K} é uma constante.[15] Em 1928,Ralph Hartley publicou o artigoTransmission of Information, onde aparece a palavrainformação como uma medida da capacidade do destinatário para distinguir diferentes sequências de símbolos, levando à expressãoH=logSn=nlogS{\displaystyle H=\log {S^{n}}=n\log {S}}, ondeS{\displaystyle S} en{\displaystyle n} representam, respectivamente, o número de símbolos possíveis e o número de símbolos na transmissão. Inicialmente, a unidade natural da transmissão foi definida como sendo o dígito decimal, sendo, posteriormente, renomeada para hartley em uma clara homenagem.[16]Alan Turing em 1940, durante a 2ª Guerra Mundial, aplicou ideias similares como parte da análise estatística para decifrar a criptografia da máquina alemã Enigma.

Boa parte da matemática por trás da teoria da informação com eventos de diferentes probabilidades foi desenvolvida para os campos datermodinâmica porLudwig Boltzmann eJ. Willard Gibbs. As conexões entre as entropias da informação e termodinâmica, incluindo as importantes contribuições deRolf Landauer na década de 1960, são exploradas naEntropia termodinâmica e teoria da informação.

No artigo seminal de Shannon, introduz-se pela primeira vez um modelo quantitativo e qualitativo da comunicação, apresentando-a como um processo estatístico subjacente à teoria da informação. Shannon inicia seu artigo dizendo

"O problema fundamental da comunicação é reproduzir em um dado ponto, exata ou aproximadamente, uma mensagem produzida em outro ponto."

Com este artigo vieram à tona os conceitos

Variáveis aleatórias discretas

[editar |editar código]

Antes de prosseguir é importante definir a notação utilizada para as variáveis aleatórias discretas. Dado uma variável aleatóriaR{\displaystyle R}, que pode assumirm{\displaystyle m} valores, podemos representá-la como:

R={r1,...,rm}{\displaystyle R=\{r_{1},...,r_{m}\}}

Onderi{\displaystyle r_{i}} é o i-ésimo valor que pode ser assumido pela variável. Cada um dosm{\displaystyle m} valores podem acontecer com probabilidadep{\displaystyle p}, não necessariamente iguais. A distribuição de probabilidades deR{\displaystyle R} é representada como:

p(R)={p1,...,pm}{\displaystyle p(R)=\{p_{1},...,p_{m}\}}

Nesse casopi{\displaystyle p_{i}}, com1im{\displaystyle 1\leq i\leq m}, representa a probabilidade do valorri{\displaystyle r_{i}} acontecer. Esse tipo de distribuição pode ser representada com um gráfico de barras como na figura a seguir.

Distribuição de probabilidades de uma variável discreta.

Para uma dada distribuição de probabilidades a condiçãoi=0npi=1{\displaystyle \sum _{i=0}^{n}p_{i}=1} é cumprida.

*

Dado duas variáveis aleatóriasX{\displaystyle X} eY{\displaystyle Y}, cada uma podendo assumir quatro valores, logoX={x1,x2,x3,x4}{\displaystyle X=\{x_{1},x_{2},x_{3},x_{4}\}} eY={y1,y2,y3,y4}{\displaystyle Y=\{y_{1},y_{2},y_{3},y_{4}\}}, com distribuições de probabilidadep(X)={p(x1),p(x2),p(x3),p(x4)}{\displaystyle p(X)=\{p(x_{1}),p(x_{2}),p(x_{3}),p(x_{4})\}} ep(Y)={p(y1),p(y2),p(y3),p(y4)}{\displaystyle p(Y)=\{p(y_{1}),p(y_{2}),p(y_{3}),p(y_{4})\}}. A distribuição conjunta das variáveis pode ser determinada medindo-se a frequência de ocorrência dos paresBij=xi,yj{\displaystyle B_{ij}={x_{i},y_{j}}}, comi,j4{\displaystyle i,j\leq 4}.

Medindo o número de ocorrências dos paresBij{\displaystyle B_{ij}}, em uma amostragem de tamanhon{\displaystyle n} suficientemente grande, é possível determinar as probabilidades de cada par dividindo o número de ocorrências de cada um deles porn{\displaystyle n}. Dando a distribuição de probabilidades conjunta (do inglês,joint probability distribution).

A distribuição conjunta pode ser por um histograma tridimensional, como o mostrado a seguir.

Distribuição de probabilidade conjunta das variáveis X e Y.

A partir da distribuição conjunta deX,Y{\displaystyle X,Y}, é possível obter as distribuições deX{\displaystyle X} ou deY{\displaystyle Y} (chamadas de distribuições marginais), através de um processo chamadomarginalização. Por exemplo, se quisermos obter o valor da distribuiçãop(X){\displaystyle p(X)} paraX=xi{\displaystyle X=x_{i}} então devemos fazê-lo somando por todos  osmy{\displaystyle m_{y}} valores deY{\displaystyle Y} paraX=xi{\displaystyle X=x_{i}}:

p(X=xi)=j=0myp(xi,yj){\displaystyle p(X=x_{i})=\sum _{j=0}^{m_{y}}p(x_{i},y_{j})}

Fazendo isso fixando cada um dos possíveis valores de $X$, obtemos a distribuição marginalp(X){\displaystyle p(X)}:

p(X)=j=0myp(X,yj)={p(x1),p(x2),p(x3),p(x4)}{\displaystyle p(X)=\sum _{j=0}^{m_{y}}p(X,y_{j})=\{p(x_{1}),p(x_{2}),p(x_{3}),p(x_{4})\}}

Para obter a distribuição marginalp(Y){\displaystyle p(Y)} basta seguir o mesmo procedimento, fixandoY{\displaystyle Y}, em cada um de seus possíveis valores:

p(Y)=i=0mxp(xi,Y)={p(y1),p(y2),p(y3),p(y4)}{\displaystyle p(Y)=\sum _{i=0}^{m_{x}}p(x_{i},Y)=\{p(y_{1}),p(y_{2}),p(y_{3}),p(y_{4})\}}

As grandezas da teoria da informação

[editar |editar código]

A teoria da informação é baseada na teoria de probabilidades e estatística. Ela se preocupa com medidas de informação das distribuições de probabilidade associadas com variáveis aleatórias. Grandezas importantes da teoria da informação são aentropia, uma medida de informação de uma única variável aleatória, einformação mútua, uma medida de informação em comum entre das variáveis aleatórias.

Na formulação das grandezas da teoria da informação, escolheu-se utilizar bases logarítmicas (para manter propriedades como a aditividade da entropia), mais especificamente a entropia de Shannon é definida com logaritmos na base 2. A unidade utilizada para quantificar informação é obit (baseado no logaritmo base 2), muito embora outras existam, como onat (baseada no logaritmo natural), e ohartley (baseado no logaritmo na base 10).[16]

Tendo citado as aplicações da teoria da informação, seu contexto histórico de surgimento e mencionado as grandezas envolvidas, chegou o momento de discutir mais a fundo alguns dos conceitos bases da teoria, começando pela unidade de informação, obit.

Escolhendo destinos e o bit de informação

[editar |editar código]

A fim de entender de forma intuitiva o que significa dizer 1bit de informação, imagine a seguinte situação, um viajante, decide sair de sua cidade, no ponto marcado com a letra "A" na figura abaixo e chegar ao seu destino no ponto "D".

Caminho percorrido pelo viajante. Em cada bifurcação ele recebia a instrução  esquerda (0) direita (1) até alcançar seu destino final.

O caminho entre "A" e "D" possui várias bifurcações (como os pontos "B" e "C"). Assumindo que o viajante desconhece o caminho, em cada cidade que passar (representada pelas bifurcações) ele pede uma informação, perguntando se deve seguir à direita ou à esquerda. Na figura anterior, dizer que ele deve seguir a esquerda é o mesmo que mostrar odígito binário 0 a ele, e um sinal de que deve seguir a direita o mesmo que mostrar o dígito 1.

Dessa forma, como é possível ver pela figura, ele terá que pedir informação nos pontos "A", "B" e "C". Note que independente do destino ({000,001,011,...}{\displaystyle \{000,001,011,...\}}) o número de perguntas para alcançá-lo (nesse caso) é sempre três. Ou seja, escolher entre oito destinos requer três perguntas:

8 destinos=23 destinos{\displaystyle 8{\text{ destinos}}=2^{3}{\text{ destinos}}}

Note que o o expoente do número dois na equação anterior é igual ao número de perguntas feitas. Define-se então que para escolher entre um dos oito possíveis destinos é necessária uma quantidade de informação igual a3bits{\displaystyle 3\,\mathrm {bits} }

Aplicando logaritmo de base dois na expressão anterior, temos:

3=log28[bits]{\displaystyle 3=\log _{2}8\quad [\mathrm {bits} ]}

É importante salientar que como o viajante poderia igualmente ter escolhido qualquer um dos destinos finais possíveis eles são todos equiprováveis com probabilidadep=1/8{\displaystyle p=1/8}.

De forma análoga, para o caso em que se temm{\displaystyle m} possíveis destinos, esupondo que o viajante possa escolher qualquer um deles com igual probabilidade, a quantidade de informação, em bits, para alcançar um dos possíveis destinos é dada pela relação a seguir:

n=log2m[bits]{\displaystyle n=\log _{2}m\quad [\mathrm {bits} ]}

Com isso conclui-se quen{\displaystyle n}bits é a quantidade informação necessária para se escolher entrem{\displaystyle m} alternativas equiprováveis, ou1bit{\displaystyle 1bit} é a quantidade de informação necessária para escolher entre duas alternativas equiprováveis.

n=log22=1bits{\displaystyle n=\log _{2}2=1\,\mathrm {bits} }

Informação de Shannon (h) ou surpresa

[editar |editar código]

Usarei de outro exemplo para explicar a medida de Informação de Shannonh{\displaystyle h} ou surpresa. Imagine nesse caso, uma moeda desonesta (enviesada), que tem probabilidadepcara=0.9{\displaystyle p_{\mathrm {cara} }=0.9} de dar cara e probabilidadepcoroa=0.1{\displaystyle p_{\mathrm {coroa} }=0.1} de dar coroa.

Por você estar acostumado que a jogada dessa moeda quase sempre dêcara, esse resultado não te surpreende. Mas um resultadocoroa te surpreende por conta da "raridade" do evento.  Pensando nisso, uma forma natural de se definir essa surpresa que se tem, seria como algo proporcional ao inverso da probabilidadep{\displaystyle p} de ocorrência do evento, de modo que quando menor essa probabilidade maior a surpresa.

Shannon definiu essa grandeza como:

h=log21p{\displaystyle h=\log _{2}{\dfrac {1}{p}}}

Utilizando o logaritmo na base dois mantêm-se a propriedade de aditividade dessa grandeza.

Dessa maneira podemos calcular a surpresa da jogada da moeda retornar cara (hcara{\displaystyle h_{\mathrm {cara} }}) ou coroa (hcoroa{\displaystyle h_{\mathrm {coroa} }}) de acordo com a definição anterior.

hcara=log210.9=0.152{\displaystyle h_{cara}=\log _{2}{\dfrac {1}{0.9}}=0.152}

e,

hcoroa=log210.1=3.322{\displaystyle h_{coroa}=\log _{2}{\dfrac {1}{0.1}}=3.322}

De fato,hcoroa>hcara{\displaystyle h_{coroa}>h_{cara}}, que surpresa!

Entropia (H)

[editar |editar código]

A fim de chegar na formulação matemática da entropia, imagine por exemplo uma variável aleatóriaX{\displaystyle X}, que pode assumir dois valores distintosx1{\displaystyle x_{1}} ex2{\displaystyle x_{2}} com probabilidadesp1{\displaystyle p_{1}} ep2{\displaystyle p_{2}}, respectivamente. Seguindo a notação definida na seção: Variáveis aleatórias discretas, temos:

X={x1,x2}{\displaystyle X=\{x_{1},x_{2}\}}

e,

p(X)={p1,p2}{\displaystyle p(X)=\{p_{1},p_{2}\}}

A informação de Shannon associada a cada um dos valores é:

h1=log21p1{\displaystyle h_{1}=\log _{2}{\dfrac {1}{p_{1}}}}

e,

h2=log21p2{\displaystyle h_{2}=\log _{2}{\dfrac {1}{p_{2}}}}

Na prática, geralmente nós não estamos interessados em saber a surpresa de um valor em particular que uma variável aleatória pode assumir, e sim a surpresa associada com todos os possíveis valores que essa variável aleatória pode ter. De modo a obter a surpresa associada a todos possíveis valores queX{\displaystyle X} pode assumir, define-se a entropiaH(X){\displaystyle H(X)} como a informação de Shannon média:

H(X)=p1h1+p2h2=p1log21p1+p2log21p2=i=12pilog21pi{\displaystyle H(X)=p_{1}h_{1}+p_{2}h_{2}=p_{1}\log _{2}{\dfrac {1}{p_{1}}}+p_{2}\log _{2}{\dfrac {1}{p_{2}}}=\sum _{i=1}^{2}p_{i}\log _{2}{\dfrac {1}{p_{i}}}}

CasoX{\displaystyle X}, possa assumirm{\displaystyle m} valores, a expressão anterior pode ser escrita de modo mais geral.

H(X)=i=1mpilog2pi{\displaystyle H(X)=-\sum _{i=1}^{m}p_{i}\log _{2}p_{i}}

A entropia do dado de seis faces

[editar |editar código]

Uma aplicação direta para a equação da entropia definida anteriormente pode ser obtida com o exemplo um dado de seis faces. Representando o dado pela variável aleatóriaX{\displaystyle X}, temos que:

X={1,2,3,4,5,6}{\displaystyle X=\{1,2,3,4,5,6\}}

e,

p(X)={1/6,1/6,1/6,1/6,1/6,1/6}{\displaystyle p(X)=\{1/6,1/6,1/6,1/6,1/6,1/6\}}

Desse modo a entropia é:

H(X)=i=16pilog2pi=616log216=2.585bits{\displaystyle H(X)=-\sum _{i=1}^{6}p_{i}\log _{2}p_{i}=-6{\dfrac {1}{6}}\log _{2}{\dfrac {1}{6}}=2.585\,\mathrm {bits} }

Moeda boa, moeda má

[editar |editar código]

Considere a moeda honesta, representada pela variável aleatóriaM1{\displaystyle M_{1}}:

M1={cara,coroa}={0,1}{\displaystyle M_{1}=\{cara,coroa\}=\{0,1\}}

e,

p(M1)={pcara=0.5,pcoroa=0.5}{\displaystyle p(M_{1})=\{p_{cara}=0.5,p_{coroa}=0.5\}}

 E a moeda enviesada, como aquela utilizada para exemplificar a informação de Shannon, representada pela variável aleatóriaM2{\displaystyle M_{2}}.

M2={cara,coroa}={0,1}{\displaystyle M_{2}=\{cara,coroa\}=\{0,1\}}

e,

p(M2)={pcara=0.9,pcoroa=0.1}{\displaystyle p(M_{2})=\{p_{cara}=0.9,p_{coroa}=0.1\}}

 Note que um resultadocara é representado pelo dígito 0 e um resultadocoroa por um dígito 1. A entropia de cada uma das moedas pode ser calculada, sendo então:

H(M1)=i=12pilog2pi=212log212=1 bit{\displaystyle H(M_{1})=-\sum _{i=1}^{2}p_{i}\log _{2}p_{i}=-2{\dfrac {1}{2}}\log _{2}{\dfrac {1}{2}}=1{\text{ bit}}}

e,

H(M2)=i=12pilog2pi=(0.9log20.9+0.1log20.1)=0.469 bits{\displaystyle H(M_{2})=-\sum _{i=1}^{2}p_{i}\log _{2}p_{i}=-(0.9\log _{2}0.9+0.1\log _{2}0.1)=0.469{\text{ bits}}}

Nesse caso a entropia da moeda honesta é maior do que a da moeda desonesta, mas qual o significado disso? O que a medida de entropia pode me dizer? Essas questões serão abordadas na próxima seção, onde uma abordagem conceitual de entropia será tratada.

Uma visão conceitual da grandeza entropia

[editar |editar código]

Fundamentalmente a entropia é uma medida deincerteza. Isso pode ser visto no exemplo anterior, na moeda honesta é muito difícil dizer qual será o resultado antes de jogá-la, alguém pode arriscar dizer que o resultado será cara ou coroa, mas aincerteza continua maior do que no caso da moeda enviesada (logo com entropia também maior), onde podemos prever com certa tranquilidade que o resultado da jogada será cara.

No fundo, essa incerteza está ligada à previsibilidade do valor que será assumido por uma dada variável aleatória, prever um valor sorteado entre 100 valores equiprováveis (por exemplo, adivinhar o número que saíra em um dado de 100 faces) é mais difícil do que prever esse valor, caso esse dado seja enviesado e uma das faces tenha probabilidade alta de aparecer.

Agora sabemos também que a entropia é uma medida de informação, como uma coisa se relaciona a outra?

Justamente por ter mais incerteza sobre a possível saída de uma variável aleatória, você precisa de mais informação, para "adivinhar" essa saída. Isso é análogo ao número de perguntas que o nosso viajante da seção "Escolhendo destinos e o bit de informação" teve de fazer para chegar ao seu destino. Desse modo quanto maior a entropia maior a incerteza e maior a informação que você precisa para "adivinhar" uma possível saída que a variável aleatória pode apresentar.

Para ilustrar o que foi dito, considere a seguinte situação, estacionaram seu carro em um estacionamento de 8 vagas dispostas como no desenho abaixo, para adivinhar em que vaga ele está você tem permissão de realizar perguntas sim ou não.

Esquema do estacionamento.

Você pode começar: "O carro está na direita?", caso a resposta seja sim, isso restringe as possíveis vagas pela metade, sendo elas as vagas 3, 4, 7 e 8. A próxima perguntar pode ser: "O carro está ao norte?", com uma resposta não, restam duas possibilidades, a vaga 7 ou 8. Uma ultima pergunta: "O carro está a direita?", basta para determinar em qual delas seu carro está. Nesse caso cada resposta sim/não te da 1 bit de informação. Como são necessárias três perguntamos podemos dizer que a entropiaH{\displaystyle H} é igual a 3 bits.

Assim fica fácil entender a ideia de que a entropia está relacionada  com a quantidade de informação necessária para "adivinhar" a resposta (ou uma possível saída de uma variável aleatória).

No exemplo das vagas, como a probabilidade do carro estar em qualquer uma das vagas é igual, cada bit de informação diminui o número de respostas possíveis pela metade.

Entropia da distribuição conjunta

[editar |editar código]

A definição de entropia para uma distribuição conjuntaP(X,Y){\displaystyle P(X,Y)} pode ser obtida de forma direta da definição de entropia, por analogia, sendo:

H(X,Y)=i=1mxj=1mypijlog2pij{\displaystyle H(X,Y)=-\sum _{i=1}^{m_{x}}\sum _{j=1}^{m_{y}}p_{ij}\log _{2}p_{ij}}

Ondepij{\displaystyle p_{ij}} é a probabilidade de ocorrência do parBij=xi,yj{\displaystyle B_{ij}={x_{i},y_{j}}}. Essa definição é de particular importância para quando definirmos informação mútua.

Teorema de codificação da fonte

[editar |editar código]

O teorema de codificação da fonte é fundamental para todos os meios de comunicação, uma vez que ele estabelece limites de como mensagens podem ser transmitidas e além disso, ele mostra que existem maneiras mais e menos eficientes de se fazer isso, dependendo da mensagem enviada. Aqui apenas uma ideia do que ele se trata será dada, para entendimento maior consulte as referências.

Antes de mais nada considere um canal, sem fonte de ruído, onde uma mensagem é codificada em sua fonte (source) por umencoder, enviada pelo canal até seu destino, decodificada por umdecoder e interpretada pela pessoa alvo.

Esquema de um canal sem ruído.

Define-se a Capacidade do canalC{\displaystyle C} como sendo numericamente igual ao número de dígitos binários comunicados por segundo. Se tivermos 1 bit por dígito binário a capacidade é definida em unidades de bits por segundo. Essa definição pode ser mais bem explorada matematicamente, mas para os fins aqui propostos, a definição dada é suficiente.

Dada as definições, imagine que se deseja transmitir uma série de $m$ símbolos, representados pela variávelS={s1,..,sm}{\displaystyle S=\{s_{1},..,s_{m}\}}, sendop(S){\displaystyle p(S)} a distribuição de probabilidades deS{\displaystyle S} eH(S){\displaystyle H(S)} sua entropia. O teorema de  codificação da fonte pode ser enunciado como segue:

"Dada a distribuição $S$ com entropia $H(S)$, medida em bits por símbolo $s$, e um canal com capacidade $C$ bits por segundo. Então é possível codificar os símbolos $s$ enviados pela fonte de tal modo que a mensagem seja transmitida na capacidade máxima $C$ do canal."

Enviando números de 1 a 8

[editar |editar código]

Imagine uma fonte que envia números de 1 a 8, com igual probabilidadep=1/8{\displaystyle p=1/8}, então temos nossa variávelS={1,2,3,4,5,6,7,8}{\displaystyle S=\{1,2,3,4,5,6,7,8\}}, podemos determinar a entropia deS{\displaystyle S}como sendoH(S)=3bits/si´mbolo{\displaystyle H(S)=3{\mathtt {bits/s{\acute {i}}mbolo}}}.

Caso os números sejam transmitidos por um canal com capacidadeC=3bits/s{\displaystyle C=3bits/s}, o teorema  de codificação da fonte garante que existe um modo de codificar os símbolos emS{\displaystyle S} de modo tal que eles sejam transmitidos com capacidade máximaC{\displaystyle C}, no caso 3 bits/s.

Um modo de codificar os valores de 1 a 8, seria representá-los por números binários de3=log28{\displaystyle 3=log_{2}8} dígitos binários, como na tabela a seguir, que indica o símbolo e sua respectivo código.

SimboloCódigo
1001
2010
3011
4100
5101
6110
7111
81000

SendoL{\displaystyle L} o número de dígitos binários utilizado por código para cada símbolo deS{\displaystyle S}. A eficiênciaϵ{\displaystyle \epsilon } é um número entre 0 e 1, calculada como a razão da entropia deS{\displaystyle S} porL{\displaystyle L}.

ϵ=HL{\displaystyle \epsilon ={\dfrac {H}{L}}}

Nesse caso,

ϵ=3bits/si´mbolo3di´gitosbina´rios/si´mbolo=1bit/di´gitosbina´rios{\displaystyle \epsilon ={\dfrac {3{\mathtt {bits/s{\acute {i}}mbolo}}}{3{\mathtt {d{\acute {i}}gitosbin{\acute {a}}rios/s{\acute {i}}mbolo}}}}=1{\mathtt {bit/d{\acute {i}}gitosbin{\acute {a}}rios}}}

Para esse caso simples é muito fácil encontrar a codificação necessária para transmitir os símbolos com máxima eficiência. Mas para maioria dos casos não é assim, e são necessários algoritmos mais rebuscados, como por exemplo acodificação de Huffman, que não será discutida aqui, mas consiste em codificar os símbolos mais frequentes com códigos mais simples (que usam menos dígitos binários por exemplo). Ocódigo Morse (figura abaixo), se baseia nesse princípio, onde letras como oE mais frequentes na língua inglesa são representados por sequência mais simples, e outras letras menos frequentes como oJ por sequências mais complicadas, isso ajuda a aumentar a eficiência com a qual a mensagem é enviada.

Código Morse.

É importante salientar que o código Morse precede o artigo de Shannon, sendo portanto desconhecidos esses limites teóricos para comunicar informação.


Informação mútua

[editar |editar código]

Considerações iniciais

[editar |editar código]

Dado duas variáveis aleatóriasX{\displaystyle X} eY{\displaystyle Y}, a informação mútuaI(X,Y){\displaystyle I(X,Y)} entre elas é a quantidade de informação média que ganhamos sobreY{\displaystyle Y} após observar um valor isolado deX{\displaystyle X}

A informação mútua entreX{\displaystyle X} eY{\displaystyle Y} é definida como:

I(X,Y)=i=1mxj=1myp(xi,yj)log2p(xi,yj)p(xi)p(yj){\displaystyle I(X,Y)=\sum _{i=1}^{m_{x}}\sum _{j=1}^{m_{y}}p(x_{i},y_{j})\log _{2}{\dfrac {p(x_{i},y_{j})}{p(x_{i})p(y_{j})}}}

 Paramx{\displaystyle m_{x}} valores deX{\displaystyle X} emy{\displaystyle m_{y}} valores deY{\displaystyle Y}. A expressão anterior pode ser trabalhada de forma a ser escrita como:

H(X,Y)=H(X)+H(Y)I(X,Y){\displaystyle H(X,Y)=H(X)+H(Y)-I(X,Y)}

OndeH(X,Y){\displaystyle H(X,Y)} é entropia da distribuição conjunta dada já definida anteriormente.

Entropia condicional

[editar |editar código]

Um modo alternativo de enxergar o conceito de informação mútua pode ser obtido considerando-se a entropia da saída em relação ao ruído do canal. Se não conhecemos o valor da entradaX{\displaystyle X} então nossa incerteza sobre o valor deY{\displaystyle Y} é dado por sua entropiaH(Y){\displaystyle H(Y)}. Mas se conhecemos o valor deX{\displaystyle X} então nossa incerteza sobreY{\displaystyle Y} é reduzida deH(Y){\displaystyle H(Y)} para um valor chamado deentropia condicionalH(Y|X){\displaystyle H(Y|X)}, que é a incerteza média do valor deY{\displaystyle Y} apósX{\displaystyle X} ser observado. Assim:

I(X,Y)=H(Y)H(Y|X){\displaystyle I(X,Y)=H(Y)-H(Y|X)}

Como informação mútua e uma grandeza simétrica:

I(Y,X)=H(X)H(X|Y){\displaystyle I(Y,X)=H(X)-H(X|Y)}

OndeH(X,Y){\displaystyle H(X,Y)} é a incerteza média que temos sobre o valor deX{\displaystyle X} após temos observadoY{\displaystyle Y}, e portanto a incerteza média emX{\displaystyle X} que não pode ser atribuída aY{\displaystyle Y}.

Independência estatística

[editar |editar código]

SeX{\displaystyle X} eY{\displaystyle Y} são estatisticamente independentes, então conhecer um valor deX{\displaystyle X} não nos dá nenhuma informação sobreY{\displaystyle Y} evice versa. Nesse caso cada valor de probabilidade da distribuição conjunta pode ser escrito como:

p(xi,yj)=p(xi)p(yj){\displaystyle p(x_{i},y_{j})=p(x_{i})p(y_{j})}

Substituindo na definição de informação mútua, e realizando algumas manipulações temos:

H(X)+H(Y)H(X,Y)=0{\displaystyle H(X)+H(Y)-H(X,Y)=0}

O que significa queI(X,Y)=0{\displaystyle I(X,Y)=0}, como esperado.

Entropia condicional e ruído

[editar |editar código]

Diferente do que se considerou na seção onde tratamos do teorema de codificação da fonte, os canais geralmente possuem ruído (figura abaixo). Por esse motivo se considera que a saída do canalY{\displaystyle Y} é igual a entradaX{\displaystyle X} mas um ruído do canalη{\displaystyle \eta }, é possível achar uma expressão do ruído do canal como a seguir. 

Esquema de canal com ruído.

Y=X+η{\displaystyle Y=X+\eta }

Da expressãoI(X,Y)=H(Y)H(Y|X){\textstyle I(X,Y)=H(Y)-H(Y|X)} nos leva a:

I(X,Y)=H(Y)H([X+η]|X){\displaystyle I(X,Y)=H(Y)-H([X+\eta ]|X)}

Se o valor deX{\displaystyle X} é conhecido, então a incerteza emX{\displaystyle X} é zero, logo ele não tem nenhuma contribuição na entropia condicionalH([X+η]|X){\displaystyle H([X+\eta ]|X)}, dando:

I(X,Y)=H(Y)H(η|X){\displaystyle I(X,Y)=H(Y)-H(\eta |X)}

Entretanto o valor do ruídoη{\displaystyle \eta } é independente do valor deX{\displaystyle X}, logoH(η|X)=H(η){\displaystyle H(\eta |X)=H(\eta )}, o que nos permite reescrever a equação anterior como:

I(X,Y)=H(Y)H(η){\displaystyle I(X,Y)=H(Y)-H(\eta )}

Comparando as equaçõesI(X,Y)=H(Y)H(Y|X){\textstyle I(X,Y)=H(Y)-H(Y|X)} e a anterior podemos concluir que:

H(Y|X)=H(η){\displaystyle H(Y|X)=H(\eta )}

Logo, a entropia do ruído é igual a entropia condicionalH(Y|X){\displaystyle H(Y|X)}.

Ver também

[editar |editar código]

Referências

  1. «Information theory | Definition, History, Examples, & Facts | Britannica».www.britannica.com (em inglês). 8 de setembro de 2025. Consultado em 6 de novembro de 2025 
  2. Adriaans, Pieter (26 de outubro de 2012).«Information». Consultado em 18 de novembro de 2025 
  3. Magossi, José Carlos; Abreu, Pedro Henrique Camargo de; Barros, Antônio César da Costa; Paviotti, José Renato (10 de novembro de 2021).«A Medida de Informação de Shannon: Entropia».Revista Brasileira de História da Matemática (41): 45–72.ISSN 2675-7079.doi:10.47976/RBHM2021v20n4145-72. Consultado em 19 de novembro de 2025 
  4. WEAVER, W. A teoria matemática da comunicação. COHN, Gabriel (Org.). *Comunicação e indústria cultural*. 3. ed. São Paulo: Nacional, 1977. [S.l.: s.n.] 
  5. abc«https://byjus.com/physics/information-theory/».BYJUS (em inglês). Consultado em 21 de novembro de 2025 Ligação externa em|titulo= (ajuda)
  6. Serra, Paulo (2007).Manual de Teoria da Comunicação. [S.l.: s.n.] 
  7. Weaver, Warren; Shannon, Claude (1949).A Teoria Matemática da Comunicação. [S.l.: s.n.] 
  8. abDawkins, Richard (2003).A devil's chaplain: reflections on hope, lies, science, and love. Boston: Houghton Mifflin Co 
  9. abAdriaans, Pieter (26 de outubro de 2012).«Information». Consultado em 26 de abril de 2024 
  10. abDa Silva, Rafael Barbosa (16 de abril de 2024).«On the Resistance to Entropic Elevation of Genetic Information: The Solution to the Non-Randomness of Mutations With Reference to Their Essentiality».doi:10.20944/preprints202404.1005.v1. Consultado em 26 de abril de 2024 
  11. Shannon, Claude Elwood; Weaver, Warren (1998).The mathematical theory of communication. Urbana: Univ. of Illinois Press 
  12. Dawkins, Richard (2006).The blind watchmaker: why the evidence of evolution reveals a universe without design. New York London: W.W. Norton & Company 
  13. Burgin, Mark; Mikkilineni, Rao (novembro de 2022).«Is Information Physical and Does It Have Mass?».Information (em inglês) (11). 540 páginas.ISSN 2078-2489.doi:10.3390/info13110540. Consultado em 26 de abril de 2024 
  14. Hawking, Stephen W. (1996).The illustrated a brief history of time Updated and expanded ed ed. New York: Bantam Books  !CS1 manut: Texto extra (link)
  15. Nyquist, H. (abril de 1924).«Certain factors affecting telegraph speed».The Bell System Technical Journal (2): 324–346.ISSN 0005-8580.doi:10.1002/j.1538-7305.1924.tb01361.x. Consultado em 21 de novembro de 2025 
  16. abPena, Aurélio Bianco; Silva, Cibelle Celestino (2022).«Da comunicação à informação: quando a prática se sobrepõe à teoria».Revista Brasileira de Ensino de Física.ISSN 1806-9126.doi:10.1590/1806-9126-rbef-2021-0286. Consultado em 21 de novembro de 2025 

[1] Stone J. (2014). Information Theory: A Tutorial Introduction. Sheffield: Sebtel Press.

[2] MacKay D. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge:Cambridge University Press.

[3] Shannon C., Weaver W. (1949). The Mathematical Theory of Communication. Urbana, IL: University of Illinois Press.

[4]  Borst, A. \& Theunissen, F. Information theory and neural coding. Nature Neurosci. 2, 947–957

(1999).

[5] Tononi, 2012  Integrated information theory of consciousness: an updated account

Arch. Ital. Biol., 150 (2012), pp. 56–90.

Ligações externas

[editar |editar código]


Subcampos
Ciberneticistas
Matemática computacional
Matemática discreta
Física algébrica
Física analítica
Análise
Teoria das probabilidades
Teoria da decisão
Outras aplicações
Áreas da matemática
Áreas
Divisões
Obtida de "https://pt.wikipedia.org/w/index.php?title=Teoria_da_informação&oldid=71229609"
Categorias:
Categorias ocultas:

[8]ページ先頭

©2009-2025 Movatter.jp