From 3c374fdef027fd8798496b9679f1c00da555a035 Mon Sep 17 00:00:00 2001 From: Filip Znachor Date: Wed, 17 Jan 2024 15:09:41 +0100 Subject: [PATCH] =?UTF-8?q?P=C5=99id=C3=A1n=C3=AD=203.=20=C4=8D=C3=A1sti?= =?UTF-8?q?=20teorie=20z=20TI?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- KIV TI/03. Teorie informace.md | 122 +++++++++++++++++++++++++++++++++ 1 file changed, 122 insertions(+) create mode 100644 KIV TI/03. Teorie informace.md diff --git a/KIV TI/03. Teorie informace.md b/KIV TI/03. Teorie informace.md new file mode 100644 index 0000000..de44a57 --- /dev/null +++ b/KIV TI/03. Teorie informace.md @@ -0,0 +1,122 @@ +# Teorie informace + +**Informace** +- Norbert Wiener: Informace je název pro obsah toho, co si vyměňujeme s vnějším světem, když se mu přizpůsobujeme a působíme na něj svým přizpůsobováním. +- Informace = poznatky o prostředí, objektech, jevech a procesech v něm probíhajících +- snižuje nebo odstraňuje neurčitost (entropii) přijímacího systému +- forma: + - text, obraz, řečový signál, ... +- nosič: + - křídový prášek na tabuli, elektrický signál, optický signál, elektromagnetiké vlnění, ... + +### Model sdělovací soustavy + +- cíle sdělování + - přenést informaci v prostoru (přenos dat) + - přenést informaci v čase (záznam dat na paměťové médium) +- informace je nutné reprezentovat vhondou fyzikální veličinou, která umožní dálkový přenos nebo záznam na paměťové médium +- informace proto musí být **vhodně zakódována** + +Jedná se o abstraktní model, který vyhovuje úvahám o přenosu i záznamu informace. +- schéma (informace cestuje od shora dolů) + - **ZI** - model zdroje informace + - *průběh signálu - $U(t)$* + - **K** - kodér + - *průběh signálu - $V(t)$* + - kanál/médium (na něj působí rušení **R** modelem $\epsilon$) + - *průběh signálu - $V'(t)$* + - **D** - dekodér + - *průběh signálu - $U'(t)$* + - **PI** - příjemce informace +- průběh signálů mezi všemi částmi (a rušení) je určen matematickými modely (jsou to obecně náhodné procesy) ++ pouze v případě nulového rušení $\epsilon$ platí $V't = V(t)$ ++ cílem přenosu/záznamu je, aby platilo $U'(t) = U(t)$ ++ součástí kodéru i dekodéru bývají mechanizmy pro eliminaci (či minimalizaci) důsledků rušení + +#### Klasifikace zdrojů informace a kanálů + +Zdroj informace +- **diskrétní** + - generuje informaci v diskrétních časových okamžicích, zpráva reprezentována řetězcem prvků nad abecedou zdroje +- **spojitý** + - zpráva reprezentována spojitou funkcí času + +Sdělovací kanál +- **diskrétní** + - přenáší pouze znaky z nějaké konečné množiny +- **spojitý** + - je schopen přenášet spojitý signál s charakteristikou v určitém omezeném rozsahu (např. frekvenční charakteristika) + +Funkce kodéru +- transformovat zdrojové zprávy tak, aby byly přenositelné sdělovacím kanálem + +**Vztah mezi zdrojem informace a kanálem** +- diskrétní zdroj, diskrétní kanál + - množina znaků zdroje a množina znaků kanálu nemusí být stejné, mohou mít různý počet znaků + - kodér řeší kódování znaků abecedy zdroje do řetězců abecedy kanálu +- spojitý zdroj, spojitý kanál + - frekvenční spektrum signálu zdroje nemusí odpovídat frekvenčnímu pásmu kanálu + - kodér řeší přeložení frekvenčního pásma, provádí spojitou analogovou modulaci signálu +- diskrétní zdroj, spojitý kanál + - kodér řeší modulaci hranatého signálu (posloupnost znaků zdroje) do frekvenčního pásma kanálu +- spojitý zdroj, diskrétní kanál + - kodér řeší vzorkování (v čase), kvantování (v úrovních) spojitého signálu a následné kódování vzorku + - **Nyquistův-Shannonův vzorkovací teorém**: přesná rekonstrukce spojitého frekvenčně omezeného signálu z jeho vzorků je možná pouze tehdy, pokud byla vzorkovací frekvence vyšší než dvojnásobek maximální frekvence obsažené ve spektru vzorkovaného signálu + - počet úrovní, do kterých lze signál kvantovat, je omezen kapacitou kanálu + +### Model diskrétního zdroje informace + +Diskrétní zdroj informace **bez paměti** +- zdroj, kde vysílání jednotlivých znaků tvoří nezávislé jevy +- vyslaný znak je statisticky nezávislý na tom, jaké znaky zdroj dosud vyslal + +#### TODO + +**Elementární entropie** +- elementární entropie $H(x_{i})$ písmene $x_{i}$ je funkcí pravděpodobnosti tohoto písmene $H(x_{i}) = f(p(x_{i}))$ +- platí, že $p_{1} < p_{2} \implies f(p_{1}) > f(p_{2})$ (funkce je klesající) +- v případě nezávislých jevů je elementární entropie aditivní, tedy $f(p_{1} \cdot p_{2}) = f(p_{1}) + f(p_{2})$ + - pravděpodobnost toho, že současně nastanou dva nezávislé jevy je rovna součinu jejich pravděpodobností +- podmínkám vyhovuje $f(x) = -\log(x)$ při libovolném základu větším než 1 +- elementární entropie písmene $x_{i} : H(x_{i}) = -\log_{2} p(x_{i}) \quad [\text{bit}]$ + +**Střední entropie zdroje** +- vztahuje se k celé abecedě, závisí na rozložení pravděpodobnosti mezi všechna písmena +- je střední hodnotou elementárních entropií +- každé písmeno $x_{i}$ má pravděpodobnost $p(x_{i})$, součet pravděpodobností všech písmen je roven 1 + +$$ +H(X) = -\sum_{i=1}^{r} p(x_{i}) \log_{2} p(x_{i}) +$$ +- pro účely definice $p(x_{i}) = 0 \implies p(x_{i}) \cdot \log_{2} p(x_{i}) \approx \lim_{ x \to 0+ } (x \cdot \log_{2} x) = 0$ +- velikost $0 \leq H(X) \leq \log_{2}r$ + - $H(X) = 0$ + - pokud může nastávat jediná realizace + - $H(X) = \log_{2}r$ + - pokud všechny realizace mají stejnou pravděpodobnost $\frac{1}{r}$ + +Elementární informace $I(x_{i})$ připadající na písmeno $x_{i}$ +- $I(x_{i}) = H(x_{i}) = -\log_{2} p(x_{i})$ + +**Informační vydatnost $I(X)$ zdroje** $X$ +- velikost informace, kterou přinesl náhodný jev = rozdíl neurčitosti ve sledované veličině **před** tím, než jev nastal, a **po** tom, co jev nastal +- u zdroje informace má smysl hledat + - kolik informace jev **přinesl** + - kolik informace jev **může přinést** + +$$ +I(X) = H(X) = - \sum_{i=1}^r p(x_{i}) \log_{2} p(x_{i}) +$$ + +**Redundance zdroje** +- zdroj informace: $X = \{0, 1\}, p(x_{1}) = 0.5, p(x_{2}) = 0.5$ +- přenášeno nespolehlivým kanálem, znak zakódujeme trojnásobným opakováním +- redundance zdroje: + - $H(X) = -(0.5 \log_{2} 0.5 + 0.5 \log_{2} 0.5) = -\log_{2} 0.5 = 1$ + - $\rho = 1 - \frac{H(X)}{\log_{2}r} = 1 - \frac{1}{\log_{2}2} = 0$ (redundance zdroje nulová) +- redundance po zakódování: + - znaky kódovány do trojic, těch může být celkem 8 ($r = 8$) + - zakódováním ale získáme pouze dvě trojice (000, 111), obě s pravděpodobností 0.5 + - pravděpodobnosti výskytu jiných trojic na vstupu kanálu jsou nulové + - $H(X) = -(0.5 \log_{2} 0.5 + 0.5 \log_{2} 0.5) = -\log_{2} 0.5 = 1$ + - $\rho = 1 - \frac{H(X)}{\log_{2}r} = 1 - \frac{1}{\log_{2}8} = 1 - \frac{1}{3} = \frac{2}{3}$ (dva znaky ze tří jsou nadbytečné) \ No newline at end of file