# Teorie informace **Informace** - Norbert Wiener: Informace je název pro obsah toho, co si vyměňujeme s vnějším světem, když se mu přizpůsobujeme a působíme na něj svým přizpůsobováním. - Informace = poznatky o prostředí, objektech, jevech a procesech v něm probíhajících - snižuje nebo odstraňuje neurčitost (entropii) přijímacího systému - forma: - text, obraz, řečový signál, ... - nosič: - křídový prášek na tabuli, elektrický signál, optický signál, elektromagnetiké vlnění, ... ### Model sdělovací soustavy - cíle sdělování - přenést informaci v prostoru (přenos dat) - přenést informaci v čase (záznam dat na paměťové médium) - informace je nutné reprezentovat vhondou fyzikální veličinou, která umožní dálkový přenos nebo záznam na paměťové médium - informace proto musí být **vhodně zakódována** Jedná se o abstraktní model, který vyhovuje úvahám o přenosu i záznamu informace. - schéma (informace cestuje od shora dolů) - **ZI** - model zdroje informace - *průběh signálu - $U(t)$* - **K** - kodér - *průběh signálu - $V(t)$* - kanál/médium (na něj působí rušení **R** modelem $\epsilon$) - *průběh signálu - $V'(t)$* - **D** - dekodér - *průběh signálu - $U'(t)$* - **PI** - příjemce informace - průběh signálů mezi všemi částmi (a rušení) je určen matematickými modely (jsou to obecně náhodné procesy) + pouze v případě nulového rušení $\epsilon$ platí $V't = V(t)$ + cílem přenosu/záznamu je, aby platilo $U'(t) = U(t)$ + součástí kodéru i dekodéru bývají mechanizmy pro eliminaci (či minimalizaci) důsledků rušení #### Klasifikace zdrojů informace a kanálů Zdroj informace - **diskrétní** - generuje informaci v diskrétních časových okamžicích, zpráva reprezentována řetězcem prvků nad abecedou zdroje - **spojitý** - zpráva reprezentována spojitou funkcí času Sdělovací kanál - **diskrétní** - přenáší pouze znaky z nějaké konečné množiny - **spojitý** - je schopen přenášet spojitý signál s charakteristikou v určitém omezeném rozsahu (např. frekvenční charakteristika) Funkce kodéru - transformovat zdrojové zprávy tak, aby byly přenositelné sdělovacím kanálem **Vztah mezi zdrojem informace a kanálem** - diskrétní zdroj, diskrétní kanál - množina znaků zdroje a množina znaků kanálu nemusí být stejné, mohou mít různý počet znaků - kodér řeší kódování znaků abecedy zdroje do řetězců abecedy kanálu - spojitý zdroj, spojitý kanál - frekvenční spektrum signálu zdroje nemusí odpovídat frekvenčnímu pásmu kanálu - kodér řeší přeložení frekvenčního pásma, provádí spojitou analogovou modulaci signálu - diskrétní zdroj, spojitý kanál - kodér řeší modulaci hranatého signálu (posloupnost znaků zdroje) do frekvenčního pásma kanálu - spojitý zdroj, diskrétní kanál - kodér řeší vzorkování (v čase), kvantování (v úrovních) spojitého signálu a následné kódování vzorku - **Nyquistův-Shannonův vzorkovací teorém**: přesná rekonstrukce spojitého frekvenčně omezeného signálu z jeho vzorků je možná pouze tehdy, pokud byla vzorkovací frekvence vyšší než dvojnásobek maximální frekvence obsažené ve spektru vzorkovaného signálu - počet úrovní, do kterých lze signál kvantovat, je omezen kapacitou kanálu ### Model diskrétního zdroje informace Diskrétní zdroj informace **bez paměti** - zdroj, kde vysílání jednotlivých znaků tvoří nezávislé jevy - vyslaný znak je statisticky nezávislý na tom, jaké znaky zdroj dosud vyslal #### TODO **Elementární entropie** - elementární entropie $H(x_{i})$ písmene $x_{i}$ je funkcí pravděpodobnosti tohoto písmene $H(x_{i}) = f(p(x_{i}))$ - platí, že $p_{1} < p_{2} \implies f(p_{1}) > f(p_{2})$ (funkce je klesající) - v případě nezávislých jevů je elementární entropie aditivní, tedy $f(p_{1} \cdot p_{2}) = f(p_{1}) + f(p_{2})$ - pravděpodobnost toho, že současně nastanou dva nezávislé jevy je rovna součinu jejich pravděpodobností - podmínkám vyhovuje $f(x) = -\log(x)$ při libovolném základu větším než 1 - elementární entropie písmene $x_{i} : H(x_{i}) = -\log_{2} p(x_{i}) \quad [\text{bit}]$ **Střední entropie zdroje** - vztahuje se k celé abecedě, závisí na rozložení pravděpodobnosti mezi všechna písmena - je střední hodnotou elementárních entropií - každé písmeno $x_{i}$ má pravděpodobnost $p(x_{i})$, součet pravděpodobností všech písmen je roven 1 $$ H(X) = -\sum_{i=1}^{r} p(x_{i}) \log_{2} p(x_{i}) $$ - pro účely definice $p(x_{i}) = 0 \implies p(x_{i}) \cdot \log_{2} p(x_{i}) \approx \lim_{ x \to 0+ } (x \cdot \log_{2} x) = 0$ - velikost $0 \leq H(X) \leq \log_{2}r$ - $H(X) = 0$ - pokud může nastávat jediná realizace - $H(X) = \log_{2}r$ - pokud všechny realizace mají stejnou pravděpodobnost $\frac{1}{r}$ Elementární informace $I(x_{i})$ připadající na písmeno $x_{i}$ - $I(x_{i}) = H(x_{i}) = -\log_{2} p(x_{i})$ **Informační vydatnost $I(X)$ zdroje** $X$ - velikost informace, kterou přinesl náhodný jev = rozdíl neurčitosti ve sledované veličině **před** tím, než jev nastal, a **po** tom, co jev nastal - u zdroje informace má smysl hledat - kolik informace jev **přinesl** - kolik informace jev **může přinést** $$ I(X) = H(X) = - \sum_{i=1}^r p(x_{i}) \log_{2} p(x_{i}) $$ **Redundance zdroje** - zdroj informace: $X = \{0, 1\}, p(x_{1}) = 0.5, p(x_{2}) = 0.5$ - přenášeno nespolehlivým kanálem, znak zakódujeme trojnásobným opakováním - redundance zdroje: - $H(X) = -(0.5 \log_{2} 0.5 + 0.5 \log_{2} 0.5) = -\log_{2} 0.5 = 1$ - $\rho = 1 - \frac{H(X)}{\log_{2}r} = 1 - \frac{1}{\log_{2}2} = 0$ (redundance zdroje nulová) - redundance po zakódování: - znaky kódovány do trojic, těch může být celkem 8 ($r = 8$) - zakódováním ale získáme pouze dvě trojice (000, 111), obě s pravděpodobností 0.5 - pravděpodobnosti výskytu jiných trojic na vstupu kanálu jsou nulové - $H(X) = -(0.5 \log_{2} 0.5 + 0.5 \log_{2} 0.5) = -\log_{2} 0.5 = 1$ - $\rho = 1 - \frac{H(X)}{\log_{2}r} = 1 - \frac{1}{\log_{2}8} = 1 - \frac{1}{3} = \frac{2}{3}$ (dva znaky ze tří jsou nadbytečné)