Marco Teórico (V). Entropía: la medida de la Ignorancia

Marco Teórico (V). Entropía: la medida de la Ignorancia

 

Entropía (información)

En el ámbito de la teoría de la información la entropía, también llamada entropía de la información y entropía de Shannon (en honor a Claude E. Shannon), mide la incertidumbre de una fuente de información.

El concepto entropía es usado en termodinámica, mecánica estadística y teoría de la información. En todos los casos la entropía se concibe como una «medida del desorden» o la «peculiaridad de ciertas combinaciones». La entropía puede ser considerada como una medida de la incertidumbre y de la información necesarias para, en cualquier proceso, poder acotar, reducir o eliminar la incertidumbre. Resulta que el concepto de información y el de entropía están básicamente relacionados entre sí, aunque se necesitaron años de desarrollo de la mecánica estadística y de la teoría de la información antes de que esto fuera percibido.

Relación con la entropía termodinámica

La entropía de la teoría de la información está estrechamente relacionada con la entropía termodinámica. En la termodinámica se estudia un sistema de partículas cuyos estados X (usualmente posición y velocidad) tienen una cierta distribución de probabilidad, pudiendo ocupar varios microestados posibles (equivalentes a los símbolos en la teoría de la información). La entropía termodinámica es igual a la entropía de la teoría de la información de esa distribución (medida usando el logaritmo neperiano) multiplicada por la constante de Boltzmann k, la cual permite pasar de nats (unidad semejante al bit) a J/K. Cuando todos los microestados son igualmente probables, la entropía termodinámica toma la forma k log(N). En un sistema aislado, la interacción entre las partículas tiende a aumentar su dispersión, afectando sus posiciones y sus velocidades, lo que causa que la entropía de la distribución aumente con el tiempo hasta llegar a un cierto máximo (cuando el mismo sistema es lo más homogéneo y desorganizado posible); lo que es denominado segunda ley de la termodinámica. La diferencia entre la cantidad de entropía que tiene un sistema y el máximo que puede llegar a tener se denomina neguentropía, y representa la cantidad de organización interna que tiene el sistema. A partir de esta última se puede definir la energía libre de Gibbs, que indica la energía que puede liberar el sistema al aumentar la entropía hasta su máximo y puede ser transformada en trabajo (energía mecánica útil) usando una máquina ideal de Carnot. Cuando un sistema recibe un flujo de calor, las velocidades de las partículas aumentan, lo que dispersa la distribución y hace aumentar la entropía. Así, el flujo de calor produce un flujo de entropía en la misma dirección.

 

Concepto intuitivo

Entropía de la información en un ensayo de Bernoulli X (experimento aleatorio en que X puede tomar los valores 0 o 1). La entropía depende de la probabilidad P(X=1) de que X tome el valor 1. Cuando P(X=1)=0.5, todos los resultados posibles son igualmente probables, por lo que el resultado es poco predecible y la entropía es máxima.

El concepto básico de entropía en teoría de la información tiene mucho que ver con la incertidumbre que existe en cualquier experimento o señal aleatoria. Es también la cantidad de «ruido» o «desorden» que contiene o libera un sistema. De esta forma, podremos hablar de la cantidad de información que lleva una señal.

Como ejemplo, consideremos algún texto escrito en español, codificado como una cadena de letras, espacios y signos de puntuación(nuestra señal será una cadena de caracteres). Ya que, estadísticamente, algunos caracteres no son muy comunes (por ejemplo, «w»), mientras otros sí lo son (como la «a»), la cadena de caracteres no será tan “aleatoria” como podría llegar a ser. Obviamente, no podemos predecir con exactitud cuál será el siguiente carácter en la cadena, y eso la haría aparentemente aleatoria. Pero es la entropía la encargada de medir precisamente esa aleatoriedad, y fue presentada por Shannon en su artículo de 1948, “Una teoría matemática de la comunicación”.

Shannon ofrece una definición de entropía que satisface las siguientes afirmaciones:

  • La medida de información debe ser proporcional (lineal continua). Es decir, el cambio pequeño en una de las probabilidades de aparición de uno de los elementos de la señal debe cambiar poco la entropía.
  • Si todos los elementos de la señal son equiprobables a la hora de aparecer, entonces la entropía será máxima.

Ejemplos de máxima entropía: Suponiendo que estamos a la espera de un texto, por ejemplo, un cable con un mensaje. En dicho cable solo se reciben las letras en minúscula de la a hasta la z, entonces si el mensaje que nos llega es “qalmnbphijcdgketrsfuvxyzwño” el cual posee una longitud de 27 caracteres, se puede decir que este mensaje llega a nosotros con la máxima entropía (o desorden posible); ya que es poco probable que se pueda pronosticar la entrada de caracteres, pues estos no se repiten ni están ordenados en una forma predecible.

 

Definición formal

Supongamos que un evento (variable aleatoria) tiene un grado de indeterminación inicial igual a  (i.e. existen  estados posibles) y supongamos todos los estados equiprobables. Entonces la probabilidad de que se dé una de esas combinaciones será . Luego podemos representar la expresión  como:

ci=-log2(p)

Si ahora cada uno de los  estados tiene una probabilidad , entonces la entropía vendrá dada por la suma ponderada de la cantidad de información:

H=-suma(pi*log2(pi))

Por lo tanto, la entropía de un mensaje , denotado por , es el valor medio ponderado de la cantidad de información de los diversos estados del mensaje:

H(x)=-suma(p(xi) * log2 p(xi))

que representa una medida de la incertidumbre media acerca de una variable aleatoria y por tanto de la cantidad de información.

  • Nota 1: Obsérvese que se usa el logaritmo en base 2 porque se considera que la información se va a representar mediante código binario (se quiere representar con bits). Si para representar la información se usaran valores en una base entonces sería conveniente utilizar el logaritmo en base .
  • Nota 2: Obsérvese que es una cantidad adimensional, es decir no lleva unidad.

Ejemplos

  • La entropía de un mensaje M de longitud 1 carácter que utiliza el conjunto de caracteres ASCII, suponiendo una equiprobabilidad en los 256 caracteres ASCII, será:

H(M)=log2(256)=8

  • Supongamos que el número de estados de un mensaje es igual a 3, M1, M2 y M3 donde la probabilidad de M1 es 50 %, la de M2 25 % y la de M3 25 %. Por tanto, la entropía de la información es:

H(M)=1/2 log2(2)+ ¼ log2(4) +1/4 log2(4) = 1,5

 

Información mutua

La entropía puede verse como caso especial de la información mutua. La información mutua de dos variables aleatorias, denotado por I(X;Y), es una cantidad que mide la dependencia mutua de las dos variables; es decir, mide la reducción de la incertidumbre (entropía) de una variable aleatoria, X, debido al conocimiento del valor de otra variable aleatoria, Y.2 De la definición podemos concluir que, si X e Y son iguales, entonces I(X;X)=H(X).

 

Propiedades

La entropía tiene las siguientes propiedades:

  1. La entropía es no negativa. Esto es evidente ya que al ser una probabilidad está entre el 0 y el 1. Por tanto, podemos decir que -log2(pi)>=0.
  2. La entropía H está acotada superiormente (cuando es máxima) y no supone pérdida de información.
  3. Dado un proceso con posibles resultados {A1,..,An} con probabilidades relativas p1,…,pn, la función es máxima en el caso de que los valores posibles de la variable son equiprobables.
  4. Cuando uno o más estados tienen una probabilidad alta, disminuye significativamente la entropía porque, como es lógico, existe una menor incertidumbre respecto al mensaje que se recibirá.

 

Entropía condicional

Supongamos que en vez de tener una única variable aleatoria X, existe otra variable Y dependientes entre sí, es decir el conocimiento de una (por ejemplo, Y) entrega información sobre la otra (por ejemplo, X). Desde el punto de vista de la entropía de la información podemos decir que la información de Y disminuirá la incertidumbre de X. Por tanto, podemos decir que la entropía de X será condicional a Y

Como por el teorema de Bayes tenemos que p(x,y)=p(y)p(x|y) donde p(x|y) es la probabilidad de que se dé un estado de X conocida Y.

 

Entropía de un proceso estocástico

Un proceso estocástico es una secuencia indexada de variables aleatorias. En general, puede haber dependencias entre las variables aleatorias.

 

Ratio de entropía

La ratio de entropía de una secuencia de n variables aleatorias (proceso estocástico) caracteriza la tasa de crecimiento de la entropía de la secuencia con el crecimiento de n.

 

Ratio de un idioma

Un idioma o lengua, es un sistema de comunicación verbal o gestual propio de una comunidad humana. Podemos observar que en los idiomas existen letras, conjuntos de letras y palabra más comunes que otras. La gramática del idioma también restringe qué palabras y en qué orden se pueden encontrar. Además el resto del mensaje (el contexto) también afecta a la probabilidad de aparición de una palabra. Por ejemplo, si estamos en un contexto judicial y aparecen las letras “im”, podemos determinar que la palabra “impugnar” es más probable que la palabra “imbécil”. En este caso podríamos decir que hay una probabilidad de las palabras condicionada por el contexto (resto de palabras).

Por tanto podemos decir que los idiomas son ‘ineficientes’, es decir, contienen mucha redundancia. No sería necesario usar todos los símbolos que usamos para expresar algo. Por ejemplo si queremos transmitir el mensaje “This is a suny day” podríamos usar la expresión “This is a suny dy” de forma que el receptor nos entendería igual. Esta es el fundamento en el que se basa el uso habitual de un montón de abreviaturas cuando la gente se comunica con SMSs.

Es decir, la ratio de entropía de un idioma es el límite de la entropía de un ejemplo de texto en el idioma, cuando la longitud del texto se hace muy grande. La ratio de un idioma la podemos interpretar como la cantidad de información que contiene cada letra de nuestro alfabeto.

Para el castellano se estima que el ratio está entre 1.2 y 1.5. Para el inglés se estima en torno al 1.3.

Se llama ratio absoluta de un idioma a el valor máximo que puede tener la ratio de un idioma. Es decir, si tenemos un idioma con n símbolos la ratio máxima del idioma será aquel en el que todos los símbolos son equiprobables e independientes

 

Redundancia de un idioma.

Se llama redundancia de un idioma (D) a la diferencia entre la ratio absoluta y la ratio de un idioma. Por tanto, este valor muestra cuanto puede ser reducido la longitud de un texto en un idioma sin perder ninguna información.

Dado que la redundancia D nos indica el número de bits extra usados para codificar un mensaje (bits redundantes) y R el número de bits para codificar un alfabeto de n símbolos letra a letra, entonces la relación D/R  expresará porcentualmente que tan redundante es el lenguaje utilizado. Para el castellano tenemos 68.42<D/R<74.73.

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s