Znachor/FAV-ZCU

Fork 0

Filip Znachor 1576a343af Přidání 1. a 2. části teorie z TI

2024-01-16 17:50:28 +01:00

17 KiB

Raw Blame History

Jazyky

Množinový přístup k pojmu jazyk nad abecedou; abeceda, uzávěr abecedy, iterace abecedy

abeceda
- značení: \sum = \{a, b, c\}
- konečná neprázdná množina symbolů
- prvky abecedy: písmena
řetězec (slovo)
- značení: ab, aacabaaab, e
  - e, \lambda - prázdný řetězec
- libovolná konečná posloupnost písmen abecedy

uzávěr abecedy \sum
- značení: \sum^+
- množina všech neprázdných řetězců vytvořených z písmen abecedy \sum
iterace abecedy \sum
- značení: \sum^*
- množina všech řetězců vytvořených z písmen abecedy \sum
zřejmé: \sum^* = \sum^+ \cup \, \{e\}

jazyk L nad abecedou $\sum$
- libovolná množina řetězců nad abecedou \sum, tedy L \subseteq \sum^*
- jazyky chápeme jako množiny

Operace

Operace nad řetězci, operace nad jazyky (zřetězení, mocnina, reverze, délka řetězce, sjednocení, průnik, doplněk, rozdíl, zřetězení jazyků)

řetězce u a v
- zřetězení
  - \sum^* \times \sum^* \to \sum^*
  - u \cdot v = a_{1}a_{2}\dots a_{n}b_{1}b_{2}\dots b_{n}
- mocnina
  - \sum^* \times \, N_{0} \to \sum^*
  - u^0 = e
  - u^1 = u
  - u^2 = u \cdot u
- reverze (obrácení)
  - \sum^* \to N_{0}
  - u^R = a_{n}a_{n-1}\dots a_{1}
- délka
  - |u| = n
  - |e| = 0
jazyky
- sjednocení
  - L = L_{1} \cup L_{2}
- průnik
  - L = L_{1} \cap L_{2}
- doplněk
  - L = \overline{L_{1}}
- rozdíl
  - L = L_{1} / L_{2}
- zřetězení
  - L = L_{1} \cdot L_{2} = L_{1}L_{2}
  - A = \{a, b, c\}, B = \{0, 1\}
  - AB = \{a0, a1, b0, b1, \dots\}

Popis

množinový
- výčtem
- společnou vlastností řetězců
akceptační
- automatem, který jazyk rozpoznává
  - každý rozpoznávací automat jednoznačně definuje jazyk jako množinu všech řetězců, které automat převedou z počátečního stavu do některého z koncových stavů
  - nemusí být konečný (existují i jiné automaty)
generativní
- pravidly pro vytváření řetězců, tedy gramatikou
  - popsání správných řetězců pomocí formálních pravidel
  - pomocí pravidel možné generovat řetězce patřící do jazyka
- přepisovací pravidla
  - postupně nahrazujeme pomocné symboly
  - odvozování končí, pokud nezbývají žádné pomocné symboly

Jazyk akceptovaný deterministickým konečným rozpoznávacím automatem - definice

automat A\left( Q, \sum, \delta, q_{0}, F \right) akceptuje jazyk L(A) = \left\{ w; w \in \sum^* \wedge \, \delta^*(q_{0}, w) \in F \right\}
- TODO

Gramatika

Definice formální gramatiky:

Uspořádaná čtveřice G = (N, T, S, P)

N - množina neterminálních symbolů
T - množina terminálních symbolů
- N \cap T = \emptyset
S \in N - počáteční symbol
P - množina přepisovacích pravidel ve tvaru \alpha \to \beta
- \alpha \in (N \cup T)^* N (N \cup T)
  - na levé straně alespoň jeden neterminální symbol
- \beta \in (N \cup T)^*
  - na pravé straně může být i prázdný řetězec

Běžné konvence

neterminální symboly: <podmět>, <identifikátor>, ... nebo S, A, B, C
terminální symboly: 0, 1, 2, ... nebo a, b, c, d, f, ...
řetězce: \alpha, \beta, \gamma, \delta, ... nebo u, v, w, x, y, z

Chomského klasifikace gramatik

gramatiky klasifikovány do 4 tříd
- třídy: 0, 1, 2, 3

určující pro zařazení gramatiky je nejvyšší třída, jejímž pravidlům gramatika vyhovuje
všechny gramatiky vyhovují pravidlům pro gramatiky třídy 0
každá další (tj. vyšší) třída zpřísní formální požadavky na tvar přepisovacích pravidel
nejužší třída 3 obsahuje gramatiky generující jazyky rozpoznatelné KA

Generace řetězců gramatikou

Generování řetězců gramatikou, přímé přepsání, přepsání, jazyk generovaný gramatikou

gramatika G generuje jazyk L(G) jako množinu všech terminálních řetězců, které lze v gramtice odvodit z počátečního symbolu
mějme řetězce
- w \in (N \cup T)^* N (N \cup T)^*
- z \in (N \cup T)^*
přímé přepsání
- řetězec w lze přímo přepsat na z právě tehdy, když existují řetězce x_{1}, x_{2}, u, v \in (N \cup T)^* takové, že zároveň platí
  - w = x_{1} \, u \, x_{2}
  - z = x_{1} \, v \, x_{2}
  - u \to v \in P
- značení: w \implies z
přepsání
- řetězec w lze přepsat na z právě tehdy, když existují řetězce w_{0}, w_{1}, \dots, w_{n} \in (N \cup T)^* takové, že
  - w = w_{0} \implies w_{1} \implies \dots \implies w_{n} = z
- tato sekvence přepsání se nazývá odvozením (derivací) slova z ze slova w
  - délka odvození je n
  - značení: a \stackrel{*}{\implies} z

Odvození řetězců

vyjdeme z počátečního symbolu S
v dosud odvozeném řetězci najdeme levou stranu některého přepisovacího pravidla
řetězec přepíšeme tak, že tuto levou stranu nahradíme odpovídající pravou stranou, přičemž levý i pravý kontext zůstane zachován
takto postupujeme dokud nedojdeme k řetězci, který se skládá pouze z terminálních symbolů

Jazyk generovaný gramatikou

množina všech terminálních řetězců, které lze v gramatice odvodit z počátečního symbolu
- L(G) = \{w | w \in T^* \wedge S \stackrel{*}{\implies} w\}

Typy gramatik

Gramatika typu 0 (G0)

pravidla ve tvaru \alpha \to \beta
- \alpha \in (N \cup T)^* N (N \cup T)^*
  - na levé straně musí být alespoň jeden neterminální symbol
- \beta \in (N \cup T)^*
  - na pravé straně může být i prázdný řetězec

Gramatika typu 1 (G1)

všechna pravidla jsou ve tvaru \alpha X \beta ⟶ \alpha \gamma \beta
- \alpha, \beta \in (N \cup T)^*
- X \in N
- \gamma \in (N \cup T)^+
výjimka: v gramatice může být pravidlo S \to e, pak se ale S nesmí vyskytnout na pravé straně přepisovacích pravidel
názvy: kontextová gramatika, context sensitive grammar (CSG), nevypouštěcí gramatika

Gramatika typu 2 (G2)

všechna pravidla jsou ve tvaru X \to \gamma
- X \in N
- \gamma \in (N \cup T)^*
názvy: bezkontextová gramatika, ontext free grammar (CFG)
nejpoužívanější gramatiky jsou G2
nejpropracovanější metody syntaktické analýzy

Srovnání kontextových a bezkontextových gramatik

kontextová: \quad \alpha X \beta \to \alpha \gamma \beta\quad (pravidlo 1)
bezkontextová: \quad X \to \gamma\quad (pravidlo 2)

podle pravidla 1 může dojít k substituci X za \gamma pouze ve „správném kontextu“ (tj. „zleva \alpha, zprava $\beta$“ )
podle pravidla 2 může dojít k substituci X za \gamma kdykoli

Gramatika typu 3

gramatiky typu 3 pravé (G3P)
- všechna pravidla jsou ve tvaru X \to w nebo X \to w Y
- X, Y \in N, w \in T^*
gramatiky typu 3 levé (G3L)
- všechna pravidla jsou ve tvaru X \to w nebo X \to Y w
- X, Y \in N, w \in T^*
názvy: pravá lineární gramatika, levá lineární gramatika

Jak určit gramatiku?

gramatika je typu i, jsou-li všechna pravidla typu i nebo vyššího \implies o typu gramatiky rozhoduje „nejhorší pravidlo“ (pravidlo s nejnižším typem)
vyskytují-li se v gramatice současně pravidla typu G3P a G3L, nejedná se o gramatiku typu G3, ale (v nejlepším případě) o typ G2
pravidla, která se mohou vyskytnout v G3P i G3L, označujeme jako pravidla typu G3 (symetrická)
tvar pravidel u G1 je takový, že existují gramatiky typu G2 a G3, které mu nevyhovují (mohou obsahovat pravidla X \to e, kde X \in N; proto je v obrázku třída G1 vyznačena jen čárkovaně, zakreslení není zcela korektní

Typy jazyků

Typy jazyků, hierarchické uspořádání tříd jazyků, hierarchie modelů jejich syntaktických analyzátorů

Jazyk L je typu i jestliže existuje gramatika G typu i taková, že L = L(G).

typ jazyka je typ nejvyšší gramatiky, která generuje jazyk

třída	název	model syntaktického analyzátoru
0	rekurzivně vyčíslitelné jazyky	Turingův stroj
1	kontextové jazyky	lineárně omezený Turingův stroj
2	bezkontextové jazyky	nedeterministický zásobníkový automat
3	regulární jazyky	konečný automat

Největší praktické použití mají bezkontextové jazyky. Současné programovací a specifikační jazyky jsou vesměs třídy 2.

Cesta od gramatiky typu G3P ke konečnému automatu (obecný popis)

ke každé gramatice typu G3P existuje ekvivalentní gramatika s pravidly ve tvaru X \to aY nebo X \to e, kde X, Y \in N a a \in T
pojem KA zobecníme na nedeterministický konečný automat, který bude připouštět nejednoznačné přechody
ke každému nedeterministickému konečnému automatu existuje konečný automat ve smyslu dosavadní definice

Převod gramatiky G3P na regulární tvar

Tvrzení: Ke každé gramatice G = (N, T, S ,P) typu G3P existuje gramatika G' = (N', T', S', P') s pravidly v regulárním tvaru X \to aY nebo X \to e, kde X, Y \in N a a \in T, taková, že L(G) = L(G').

Postup pro konstrukci ekvivalentní gramatiky v regulárním tvaru:

množina T a počáteční symbol S jsou v G' stejné jako v G
množinu přepisovacích pravidel P' zkonstruujeme takto:
1. do P' zařadíme všechna pravidla z P, která jsou v pořadovaném regulárním tvaru X \to aY nebo X \to e, kde X, Y \in N a a \in T
2. za pravidla X \to x_{1}x_{2}\dots x_{n}Y z P (X, Y \in N, x_{i} \in T) přidáme do P' soustavu pravidel:
  - X \to x_{1}X_{1}
  - X_{1} \to x_{2}X_{2}
  - ...
  - X_{n-2} \to x_{n-1}X_{n-1}
  - X_{n-1} \to x_{n}X_{n}
3. za každé pravidlo X \to z_{1}z_{2}\dots z_{n} z P (X \in N, z_{i} \in T) přidáme do P' soustavu pravidel:
  - X \to z_{1}Z_{1}
  - Z_{1} \to z_{2}Z_{2}
  - ...
  - Z_{n-1} \to z_{n}Z_{n}
  - Z_{n} \to e
4. místo pravidel tvaru X \to Y z P přidáme do P' soustavu pravidel ve tvaru:
  - Z' \to zZ'' \space \forall \, Z' \in U(Y) \space \forall \, Y \to zZ''
  - kde U(Y) = \{X | X \stackrel{*}{\implies} Y\}
množina neterminálních symbolů N' vznikne obohacením množiny N o všechny nové neterminální symboly vytvořené v bodech 2.2 a 2.3

Poznámky k praktickému provedení transformace:

provedení bodů 2.2 a 2.3 je triviální (dochází k postupnému odřezávání terminálních symbolů)
k provedení bodu 2.4 je u složitějších gramatik vhodné nakreslit pomocný graf, který bude zobrazovat pravidla tvaru X \to Y a z něj vyčíst všechny množiny U(X)
důležitým faktorem je udržet si přehled v tom, která pravidla jsem již zpracoval (nahradil ekvivalentními soustavami pravidel), je tedy vhodné si zpracovaná pravidla v zadání označovat (odškrtávat)

Nedeterministický rozpoznávací KA

A = \left( Q, \sum, \delta, S, F \right)

Q - konečná neprázdná množina stavů
\sum - konečná neprázdná množina vstupních symbolů
S \subseteq Q - množina počátečních stavů
\delta : Q \times \left( \sum \cup \{e\} \right) \to 2^Q - přechodová funkce
F \subseteq Q - množina koncových stavů

poznámky:

na začátku se automat nachází v některém ze stavů množiny S
$e$-hrany může (ale nemusí) provádět automat samovolně
obor hodnot přechodové funkce 2^Q představuje množinu všech podmnožin stavové množiny Q
- pro konkrétní stav a vstupní písmeno může být hodnotou funkce více než jeden následující stav
- automat je vždy pouze v jednom stavu, přejde vždy do některého z možných

Typy nedeterminismu

nejednoznačně určený počáteční stav (může jich být více)
nejednoznačné přechody (více přechodů ze stavu se stejným znakem)
možnost samovolného přechodu ($e$-přechody)

Řetězec akceptovaný NKA

u deterministického KA je možné určit, do jakého stavu se zpracováním řetězce dostal, u NKA to možné není

Řetězec w je NKA akceptován právě tehdy, jestliže v přechodovém grafu existuje alespoň jedna cesta, jejíž hrany jsou ohodnoceny písmeny řetězce w (nebo symboly $e$), která začíná v některém z počátečních stavů a končí v některém z koncových stavů.

prázdný řetězec e je akceptován, pokud existuje průnik mezi S a F nebo když existuje cesta složená z $e$-hran z některého počátečního stavu do některého koncového
různé možnosti zpracování řetězce chápeme jako různé výpočty

Závěr

ke každému NKA existuje ekvivalentní KA
KA a NKA rozpoznávají tutéž třídu jazyků

Převod NKA na ekvivalentní (D)KA

Popis převodu (bez $e$-hran)

předem nelze určit počet stavů ekvivalentního KA
počáteční stav KA odpovídá množině počátečních stavů NKA
stavy KA vytváříme postupně tak, že vyhodnocujeme přechodovou funkci \delta' pro již vypočítané stavy KA (začínáme od počátečního stavu)
hodnota přechodové funkce \delta' pro konkrétní podmnožinu K \subseteq Q a konkrétní vstupní písmeno x se získá jako sjednocení hodnot funkce \delta pro všechny prvky množiny K a vstupní písmeno x
koncovými stavy KA (tedy množinou $F'$) budou všechny stavy, které v sobě obsahují některý z koncových stavů výchozího NKA (tedy množiny $F$)

K sestrojení NKA k levé lineární gramatice je potřeba provést její reverzi, poté převod a následně reverzi automatu.

Reverze gramatiky

Reverzní gramatika G^R ke gramatice G je gramatika, které má na levé i pravé straně převrácené řetězce z gramatiky G.

příklad
- G
  - S \to aS
  - aS \to bA | bba
  - A \to abb
- G^R
  - S \to Sa
  - Sa \to Ab | abb
  - A \to bba

Reverze rozpoznávacího NKA

Reverzní automat A^R k automatu A je automat, v jehož přechodovém grafu jsou obráceny orientace všech šipek (obrací se orientace přechodových hran a zamění se počáteční a koncové stavy).

Ekvivalentní KA k NKA s $e$-hranami

nejprve je potřeba vytvořit ekvivalentní NKA bez $e$-hran
poté k němu vytvoříme ekvivalentní KA známým způsobem

Ekvivalence odstranění $e$-hran

pro každý stav X je potřeba vytvořit množinu $e$-následníků, tedy stavů, které jsou ze stavu X dosažitelné cestami složenými z $e$-hran
každý stav je $e$-následníkem sebe samého

Množiny $e$-následníků použijeme

k vytvoření přechodové tabulky ekvivalentního NKA bez $e$-hran tím, že stavy v množinách určující hodnoty funkce \delta nahradíme všemi jejich $e$-následníky
k vytvoření počátečního stavu ekvivalentního KA tím, že každý počáteční stav v množině S nahradíme všemi jeho $e$-následníky

Regulární výrazy

Regulární množiny

regulární množina je regulární jazyk (množina řetězců, ke které existuje konečný automat, který ji rozpozná)

Regulární množina nad abecedou \sum je definována rekurzivně takto:

\emptyset je regulární množina
\{ e \} je regulární množina
\{ a \} je regulární množina \forall \, a \in \sum
jsou-li P a Q regulární množiny, pak
1. P \cup Q je regulární množina
2. P \cdot Q je regulární množina
3. P^* a Q^* jsou regulární množiny
neexistují žádné jiné regulární množiny

Regulární výrazy

\emptyset je regulární výraz označující regulární množinu \emptyset
e je regulární výraz označující regulární množinu \{ e \}
a je regulární výraz označující regulární množinu \{ a \} \quad \forall \, a \in \sum
jsou-li p a q regulární výrazy označující regulární množiny P a Q, pak
1. p + q je regulární výraz označující regulární množinu P \cup Q
2. p \cdot q je regulární výraz označující regulární množinu P \cdot Q
3. p^* a q^* jsou regulární výrazy ozn. regulární množiny P^* a Q^*
neexistují žádné jiné regulární výrazy

vztah mezi regulární množinou a regulárním výrazem:
- regulární výraz R označuje regulární množinu A
- regulární množina A je hodnotou regulárního výrazu R
- značení A = \Vert R\Vert

Souvislost s konečnými automaty

KA rozpoznávající regulární množiny

předpokládejme, že NKA má právě jeden počáteční a právě jeden koncový stav (pokud ne, doplníme $e$-hrany)

Sestrojení NKA akceptující jazyk popsaný RV

provádí se postupným rozkladem reg. výrazu R a odpovídající transformací zobecněného přechodového grafu
zobecněný přechodový graf = přechodový graf, kde ohodnocením hrany může být také regulární výraz
- výchozí zobecněný přechodový graf
  - počáteční stav S
  - koncový stav K
  - hrana z S do K ohodnocená regulárním výrazem R
transformace grafu přidává nové stavy a nové přechodové hrany, čímž se zjednodušují regulární výrazy
proces končí, pokud jsou všechny hrany ohodnoceny písmenem \sum nebo symbolem e
výsledkem je přechodový graf NKA

Sestrojení ekvivalentního RV z NKA

opačný postup

17 KiB Raw Blame History