Vývoj technologie automatického rozpoznávání vzorů. Přehled existujících metod rozpoznávání vzorů

Moderní roboti, kteří jsou vybaveni systémy vidění, jsou schopni dobře vidět, aby mohli pracovat s reálným světem. Dokážou učinit závěry o tom, jaký typ objektů jsou přítomny, jaké vztahy mezi sebou mají a jaké skupiny tvoří.

Podstatou rozpoznávacího úkolu je zjistit, zda studované objekty mají pevnou konečnou množinu vlastností, která jim umožňuje zařadit je do určité třídy.

Cíle vědy o rozpoznávání vzorů:

Nahrazení lidského experta nebo komplexního expertního systému systémem jednodušším (automatizace lidských činností nebo zjednodušení složitých systémů);

Konstrukce učících se systémů, které se mohou rozhodovat bez specifikace jasných pravidel, jmenovitě systémů, které samy dokážou syntetizovat rozhodovací pravidla na základě určitého konečného počtu příkladů správných rozhodnutí „předvedených“ systému.

Rozpoznávací úkoly lze charakterizovat následovně.

1. Jedná se o informační úlohy sestávající ze dvou hlavních fází: redukce zdrojových dat do formy vhodné pro rozpoznání a rozpoznání samotné.

2. V těchto úlohách můžete zavést pojem analogie a podobnosti objektů a formulovat pojem blízkosti objektů jako základ pro zařazení objektu do určité třídy.

3. V těchto úlohách můžete pracovat se sadou příkladů, jejichž klasifikace je známá a které lze ve formě formalizovaných popisů předložit rozpoznávacímu algoritmu, aby se během procesu učení přizpůsobil úloze.

4. Pro tyto problémy je obtížné budovat formální teorie a aplikovat klasické matematické metody.

5. V těchto problémech jsou možné „špatné“ informace.

Typy úloh rozpoznávání:

Zadání prezentovaného předmětu do jedné z hodin (školení s učitelem);

Automatická klasifikace – rozdělení množiny objektů (situací) podle jejich popisu do systému nepřekrývajících se tříd;

Výběr souboru informačních znaků během rozkladu;

Převedení zdrojových dat do formy vhodné pro rozpoznání;

Dynamické rozpoznávání a dynamická klasifikace;

Problémy s předpovědí.

Základní definice

obraz– jedná se o strukturovaný popis předmětu nebo jevu, reprezentovaný vektorem znaků, jehož každý prvek představuje číselnou hodnotu jednoho ze znaků charakterizujících tento objekt. Jinými slovy: obraz je jakýkoli objekt, pro který lze měřit soubor určitých číselných charakteristik. Příklad obrázku: dopis, obrázek, kardiogram atd.

Číselný znak(nebo jen znamení). je vzorec nebo jiný popis metody pro párování objektu s určitou číselnou charakteristikou, která funguje v rámci specifické úlohy rozpoznávání vzoru. Pro každý objekt lze definovat několik různých charakteristik, tedy několik číselných charakteristik.

Hlavní prostor.N-rozměrný prostor definovaný pro danou úlohu rozpoznávání, kde N je pevný počet měřených prvků pro libovolné objekty. Vektor z prostoru rysů odpovídající objektu rozpoznávací úlohy je N-rozměrný vektor se složkami (x1, x2, ..., xN), což jsou hodnoty vlastností tohoto objektu.

OBJEKT->Nfunkce->Vektor M-rozměrných prvků

Třída- neformalizovaná (zpravidla) představa o možnosti přiřadit libovolný objekt ze sady objektů rozpoznávací úlohy k určité skupině objektů. U objektů stejné třídy se předpokládá přítomnost „podobnosti“. Pro úlohu rozpoznávání vzorů lze definovat libovolný počet tříd větší než 1. Počet tříd je označen číslem S.

Obecně se problém rozpoznávání vzorů skládá ze dvou částí: rozpoznávání a tréninku.

Rozpoznávání vzorů spočívá v klasifikaci určité skupiny objektů na základě určitých požadavků. Objekty patřící do stejné třídy obrázků mají společné vlastnosti. Požadavky, které definují klasifikaci, se mohou lišit, protože různé situace vyžadují různé typy klasifikací.

Například při rozpoznávání anglických písmen se tvoří 26 tříd obrázků. K rozlišení anglických písmen od čínských znaků během rozpoznávání jsou však potřeba pouze dvě třídy obrázků.

Nejjednodušší přístup k rozpoznávání vzorů je porovnávání vzorů. V tomto případě je určitá sada obrázků, jeden z každé třídy obrázků, uložena v paměti zařízení. Vstupní (rozpoznaný) obrázek (neznámé třídy) je porovnán se standardem každé třídy. Klasifikace je založena na předem zvoleném kritériu shody nebo kritériu podobnosti. Jinými slovy, pokud vstupní obraz lépe odpovídá standardu i-té třídy vzoru než jakýkoli jiný standard, pak je vstupní obraz klasifikován jako patřící do i-té třídy vzoru.

Nevýhodou tohoto přístupu, tj. srovnání se standardem, je, že v některých případech je obtížné vybrat vhodný standard z každé třídy snímků a stanovit potřebné kritérium shody.

Pokročilejší přístup spočívá v tom, že klasifikace je založena na určitém souboru vybraných měření provedených na vstupních snímcích. Předpokládá se, že tato vybraná opatření, nazývaná „vlastnosti“, jsou neměnná nebo necitlivá na běžně se vyskytující variace a zkreslení a mají malou nadbytečnost.

Speciální případ druhého přístupu „měření vlastností“, ve kterém jsou standardy uloženy ve formě měřených znaků a v klasifikátoru je použito speciální klasifikační kritérium (srovnání).

Funkce jsou definovány vývojáři a musí být invariantní vůči variacím orientace, velikosti a tvaru objektů.

Přednáška č. 17.METODY ROZPOZNÁVÁNÍ VZORŮ

Rozlišují se následující skupiny metod rozpoznávání:

Metody funkce přiblížení

Metody diskriminační funkce

Metody statistického rozpoznávání.

Lingvistické metody

Heuristické metody.

První tři skupiny metod jsou zaměřeny na analýzu znaků vyjádřených jako čísla nebo vektory s číselnými složkami.

Skupina lingvistických metod poskytuje rozpoznávání vzorů na základě analýzy jejich struktury, popsané odpovídajícími strukturálními rysy a vztahy mezi nimi.

Skupina heuristických metod kombinuje charakteristické techniky a logické postupy používané lidmi při rozpoznávání vzorů.

Metody funkce přiblížení

Metody této skupiny jsou založeny na použití funkcí, které odhadují míru blízkosti mezi rozpoznaným obrazem a vektorem X* = (X* 1 ,….,x*n) a referenční obrázky různých tříd, reprezentované vektory x i = (x i 1 ,…, x i n), i= 1,…,N, Kde já –číslo třídy obrázku.

Postup rozpoznávání podle této metody spočívá ve výpočtu vzdálenosti mezi bodem rozpoznaného obrazu a každým z bodů reprezentujících referenční obraz, tzn. při výpočtu všech hodnot d i , i= 1,…,N. Obrázek patří do třídy, pro kterou je hodnota d i má ze všech nejmenší význam i= 1,…,N .

Funkce, která přiřadí každou dvojici vektorů x i, X* reálné číslo jako míra jejich blízkosti, tzn. definování vzdálenosti mezi nimi může být zcela libovolné. V matematice se taková funkce nazývá metrika prostoru. Musí splňovat následující axiomy:

r(x, y)=r(y,x);

r(x, y) > 0 pokud X ne rovné y A r(x, y)=0 pokud x=y;

r(x, y) <=r(x,z)+r(z y)

Uvedené axiomy splňují zejména následující funkce

a i= 1/2 , j=1,2,…n.

b i=součet, j=1,2,…n.

c i=max abs ( x ix j *), j=1,2,…n.

První z nich se nazývá euklidovská norma vektorového prostoru. Podle toho se prostory, ve kterých je zadaná funkce použita jako metrika, nazývají euklidovský prostor.

Často se jako funkce přiblížení volí střední kvadratický rozdíl v souřadnicích rozpoznaného obrazu X* a standardní x i, tj. funkce

d i = (1/n) součet( x i jx j *) 2 , j=1,2,…n.

Velikost d i geometricky interpretován jako druhá mocnina vzdálenosti mezi body v prostoru prvků, vztažená k rozměru prostoru.

Často se ukazuje, že různé rysy nejsou při rozpoznávání stejně důležité. Aby byla tato okolnost zohledněna při výpočtu funkcí přiblížení, jsou souřadnicové rozdíly odpovídající důležitějším znakům násobeny velkými koeficienty a méně důležitým menším.

V tomto případě d i = (1/n) součet w j (x i jx j *) 2 , j=1,2,…n,

Kde w j– váhové koeficienty.

Zavedení váhových koeficientů je ekvivalentní změně měřítka os prostoru prvků a v souladu s tím roztažení nebo stlačení prostoru v určitých směrech.

Naznačené deformace prostoru příznaků sledují cíl umístit body referenčních snímků tak, aby odpovídaly nejspolehlivějšímu rozpoznání v podmínkách značného rozptylu snímků každé třídy v blízkosti bodu referenčního snímku. .

Skupiny obrazových bodů blízko sebe (shluky obrazů) v prostoru rysů se nazývají shluky a úloha identifikace takových skupin se nazývá shlukovací problém.

Úloha identifikace shluků je klasifikována jako úloha rozpoznávání vzorů bez dozoru, tzn. k problémům s rozpoznáváním při absenci příkladu správného rozpoznání.

Metody diskriminační funkce

Myšlenkou metod této skupiny je konstruovat funkce, které definují hranice v prostoru obrázků, které rozdělují prostor na oblasti odpovídající třídám obrázků. Nejjednodušší a nejčastěji používané funkce tohoto druhu jsou funkce, které lineárně závisí na hodnotách vlastností. V prostoru prvků odpovídají dělícím plochám ve formě nadrovin. V případě dvourozměrného prostoru prvků funguje přímka jako oddělovací funkce.

Obecný tvar lineární rozhodovací funkce je dán vzorcem

d(X)=w 1 X 1 + w 2 X 2 +…+w n x n +w n +1 = Wx+w n

Kde X- vektorový obrázek, w=(w 1 ,w 2 ,…w n) – vektor váhových koeficientů.

V případě rozdělení do dvou tříd X 1 a X 2 diskriminační funkce d x) umožňuje uznání v souladu s pravidlem:

X patří X 1 pokud d(X)>0;

X patří X 2 pokud d(X)<0.

Li d(X)=0, pak nastává případ nejistoty.

V případě rozdělení do více tříd se zavádí několik funkcí. V tomto případě je každé třídě obrázků přiřazena určitá kombinace znaků diskriminační funkce.

Pokud jsou například zavedeny tři diskriminační funkce, je možná následující možnost identifikace tříd obrázků:

X patří X 1 pokud d 1 (X)>0,d 2 (X)<0,d 3 (X)<0;

X patří X 2 pokud d(X)<0,d 2 (X)>0,d 3 (X)<0;

X patří X 3 pokud d(X)<0,d 2 (X)<0,d 3 (X)>0.

Předpokládá se, že pro jiné kombinace hodnot d 1 (X),d 2 (X),d 3 (X) existuje případ nejistoty.

Variantou metody diskriminační funkce je metoda rozhodovací funkce. V něm, pokud je k dispozici m třídy se předpokládá, že existují m funkcí d i(X), nazvaný rozhodným, tak, že pokud X patří X i, Že d i(X) > d j(X) pro všechny j nerovný i,ty. rozhodující funkce d i(X) má maximální hodnotu ze všech funkcí d j(X), j=1,...,n..

Ilustrací této metody může být klasifikátor založený na odhadu minimální euklidovské vzdálenosti v prostoru prvku mezi bodem obrazu a standardem. Pojďme to ukázat.

Euklidovská vzdálenost mezi příznakovým vektorem rozpoznaného obrázku X a vektor referenčního obrázku je určen vzorcem || x iX|| = 1/2 , j=1,2,…n.

Vektor X bude zařazen do třídy i, pro kterou je hodnota || x iX*|| minimální.

Místo vzdálenosti můžete porovnávat druhou mocninu vzdálenosti, tzn.

||x iX|| 2 = (x iX)(x iX) t = X X- 2X x i +x i x i

Od hodnoty X X pro všechny stejné i, minimální funkce || x iX|| 2 se bude shodovat s maximem rozhodovací funkce

d i(X) = 2X x i -x i x i.

to je X patří X i, Pokud d i(X) > d j(X) pro všechny j nerovný i.

Že. stroj pro klasifikaci minimální vzdálenosti je založen na lineárních rozhodovacích funkcích. Obecná struktura takového stroje využívá rozhodujících funkcí formy

d i (X)=w i 1 X 1 + w i 2 X 2 +…+w v x n +w i n +1

Může být vizuálně znázorněno odpovídajícím blokovým diagramem.

Pro stroj, který provádí klasifikaci na základě minimální vzdálenosti, platí následující rovnosti: w ij = -2x i j , w i n +1 = x i x i.

Ekvivalentní rozpoznání metodou diskriminační funkce lze provést definováním diskriminačních funkcí jako rozdílů d ij (X)=d i (X)‑d j (X).

Výhodou metody diskriminační funkce je jednoduchá struktura rozpoznávacího stroje a také možnost jeho implementace především prostřednictvím převážně lineárních rozhodovacích bloků.

Další důležitou výhodou metody diskriminační funkce je schopnost automaticky trénovat stroj pro správné rozpoznávání na základě daného (tréninkového) vzorku obrázků.

Algoritmus automatického učení se přitom ve srovnání s jinými metodami rozpoznávání ukazuje jako velmi jednoduchý.

Z těchto důvodů si metoda diskriminační funkce získala širokou oblibu a v praxi je velmi často používána.

Samotrénovací postupy pro rozpoznávání vzorů

Uvažujme metody pro konstrukci diskriminační funkce pro daný (trénovací) vzorek ve vztahu k problému rozdělení obrázků do dvou tříd. Jsou-li dány dvě sady obrázků, které patří do tříd A a B, pak se řešení problému konstrukce lineární diskriminační funkce hledá ve formě vektoru váhových koeficientů. W=(w 1 ,w 2 ,...,w n,w n+1), který má tu vlastnost, že pro jakýkoli obrázek jsou splněny následující podmínky:

X patří do třídy A, pokud >0, j=1,2,…n.

X patří do třídy B, pokud<0, j=1,2,…n.

Pokud se tréninková sestava skládá z N obrázky obou tříd, úloha se redukuje na nalezení vektoru w, který zajistí platnost systému nerovnic. N obrázky obou tříd, úkolem je najít vektor w, zajišťující platnost systému nerovností

X 1 1 w i+X 21 w 2 +...+x n 1 w n+w n +1 >0;

X 1 2 w i+X 22 w 2 +...+x n 2 w n+w n +1 <0;

X 1 iw i+X 2i w 2 +...+x ni w n+w n +1 >0;

................................................

X 1 Nw i +x 2N w 2 +...+x nN w n +w n + 1>0;

Tady x i=(x i 1 ,x i 2 ,...,x i n ,x i n+ 1 ) - vektor hodnot vlastností obrázku z trénovacího vzorku, znak > odpovídá vektorům obrázku X, patřící do třídy A, a znak< - векторам X, patřící do třídy B.

Požadovaný vektor w existuje, pokud jsou třídy A a B oddělitelné a jinak neexistuje. Hodnoty vektorové složky w lze zjistit buď předem, ve fázi předcházející hardwarové implementaci SRO, nebo přímo samotnou SRO při jejím provozu. Poslední z těchto přístupů poskytuje větší flexibilitu a autonomii SRO. Uvažujme to na příkladu zařízení zvaného percentron. vynalezl v roce 1957 americký vědec Rosenblatt. Schematické znázornění percentronu, které zajišťuje přiřazení obrázku jedné ze dvou tříd, je uvedeno na následujícím obrázku.

Sítnice S Sítnice A Sítnice R

OH oh X 1

OH oh X 2

OH oh X 3

o (součet)--------> R(reakce)

OH oh x i

OH oh x n

OH oh x n +1

Zařízení se skládá ze sítnicových senzorických prvků S, které jsou náhodně připojeny k asociativním prvkům sítnice A. Každý prvek druhé sítnice produkuje výstupní signál pouze tehdy, je-li dostatečný počet senzorických prvků připojených k jeho vstupu v excitovaném stavu. Odezva celého systému R je úměrná součtu reakcí prvků asociativní sítnice braných s určitými váhami.

Určeno uživatelem x i reakce i asociativní prvek a skrz w i- koeficient reakční hmotnosti i asociativní prvek, systémová reakce může být zapsána jako R=součet( w j x j), j=1,..,n. Li R>0, pak obraz prezentovaný systému patří do třídy A, a pokud R<0, то образ относится к классу B. Описание этой процедуры классификации соответствует рассмотренным нами раньше принципам классификации, и, очевидно, перцентронная модель распознавания образов представляет собой, за исключением сенсорной сетчатки, реализацию линейной дискриминантной функции. Принятый в перцентроне принцип формирования значений X 1 , X 2 ,...,x n odpovídá nějakému algoritmu pro generování prvků na základě signálů z primárních senzorů.

Obecně může existovat několik prvků R, čímž vzniká perceptronová reakce. V tomto případě hovoří o přítomnosti sítnice v perceptronu R reagující prvky.

Schéma procentronů lze rozšířit na případ, kdy je počet tříd větší než dvě, zvýšením počtu prvků sítnice R až do počtu rozlišitelných tříd a zavedení bloku pro stanovení maximální reakce v souladu s diagramem uvedeným na výše uvedeném obrázku. V tomto případě je obrázek přiřazen třídě s číslem i, Pokud R i>Rj, pro všechny j.

Tréninkový proces percentronu spočívá ve výběru hodnot váhových koeficientů w j tak, aby výstupní signál odpovídal třídě, do které rozpoznaný obraz patří.

Uvažujme algoritmus akce procentron na příkladu rozpoznávání objektů dvou tříd: A a B. Objekty třídy A musí mít odpovídající hodnotu R= +1 a třída B - hodnota R= -1.

Algoritmus učení je následující.

Pokud další obrázek X patří do třídy A, ale R<0 (имеет место ошибка распознавания), тогда коэффициенты w j s indexy, kterým hodnoty odpovídají x j>0, zvýšit o určitou částku dw a zbývající koeficienty w j snížena o dw. V tomto případě hodnota reakce R obdrží přírůstek ke svým kladným hodnotám, odpovídající správné klasifikaci.

Li X patří do třídy B, ale R>0 (je tam chyba rozpoznávání), pak koeficienty w j s indexy, které odpovídají x j<0, увеличивают на dw a zbývající koeficienty w j snížena o stejnou částku. V tomto případě hodnota reakce R obdrží přírůstek směrem k záporným hodnotám odpovídajícím správné klasifikaci.

Algoritmus tak provede změnu vektoru vah w tehdy a jen tehdy, když je obrázek prezentován na k-th tréninkový krok, byl při provádění tohoto kroku nesprávně klasifikován a opouští vektor vah wžádná změna, pokud je klasifikována správně. Důkaz konvergence tohoto algoritmu je uveden v [Tu, Gonzalez]. Takové školení bude nakonec (při správném výběru dw a lineární oddělitelnost tříd obrázků) vede k vektoru w, zajišťující správnou klasifikaci.

Metody statistického rozpoznávání.

Statistické metody jsou založeny na minimalizaci pravděpodobnosti chyby klasifikace. Pravděpodobnost P nesprávné klasifikace obrazu předloženého k rozpoznání popsaného příznakovým vektorem X, je určen vzorcem

P = součet[ p(i)prob( D(X)+i | X třída i)]

Kde m- počet tříd,

p(i) = sonda ( X patří do třídy i) - apriorní pravděpodobnost příslušnosti k libovolnému obrázku X Na i třídy (frekvence vzhledu obrázků i- třída),

D(X) - funkce, která rozhoduje o klasifikaci (vektor znaků X odpovídá číslu třídy i ze sady (1,2,..., m}),

problém( D(X) nerovná se i| X patří do třídy i) - pravděpodobnost události " D(X) nerovná se i“, když je splněna podmínka členství X třída i, tj. pravděpodobnost, že funkce udělá chybné rozhodnutí D(X) pro danou hodnotu X, ve vlastnictví i- třída.

Lze ukázat, že pravděpodobnost chybné klasifikace dosahuje minima, pokud D(X)=i tehdy a jen tehdy p(X|ip(i)>p(x|jp(j), pro všechny i+j, Kde p(x|i) - hustota rozložení obrazu i-třída v prostoru funkcí.

Podle výše uvedeného pravidla bod X patří do třídy, které odpovídá maximální hodnota p(i) p(x|i), tj. součin předchozí pravděpodobnosti (frekvence) výskytu obrázků i-třída a hustota distribuce obrazu i-třída v prostoru funkcí. Prezentované klasifikační pravidlo se nazývá Bayesovské, protože vyplývá to z Bayesova vzorce známého v teorii pravděpodobnosti.

Příklad. Nechť je nutné rozpoznat diskrétní signály na výstupu informačního kanálu vystaveného šumu.

Každý vstupní signál představuje 0 nebo 1. V důsledku přenosu signálu se hodnota objeví na výstupu kanálu X, který je superponován s Gaussovým šumem s nulovým průměrem a rozptylem b.

Pro syntézu klasifikátoru, který provádí rozpoznávání signálu, použijeme Bayesovské klasifikační pravidlo.

Do třídy č. 1 spojíme signály představující jedničky a do třídy č. 2 signály představující nuly. Předem je známo, že v průměru z každých 1000 signálů A signály představují jednotky a b signály - nula. Potom lze hodnoty apriorních pravděpodobností výskytu signálů 1. a 2. třídy (jedniček a nul) považovat za stejné

p(1)=a/1000, p(2)=b/1000.

Protože šum je gaussovský, tzn. dodržuje normální (Gaussův) distribuční zákon, pak hustota rozložení obrázků první třídy v závislosti na hodnotě X, nebo, což je totéž, pravděpodobnost získání výstupní hodnoty X když je na vstup přiveden signál 1, je to určeno výrazem

p(X¦1) =(2pib) -1/2 exp(-( X-1) 2 /(2b 2)),

a hustota distribuce v závislosti na hodnotě X obrázky druhé třídy, tzn. pravděpodobnost získání výstupní hodnoty X když je na vstup přiveden signál 0, je to určeno výrazem

p(X¦2)= (2pib) -1/2 exp(- X 2 /(2b 2)),

Aplikace Bayesovského rozhodovacího pravidla vede k závěru, že byl přenesen signál třídy 2, tzn. null je předán, jestliže

p(2) p(X¦2) > p(1) p(X¦1)

nebo přesněji, pokud

b exp(- X 2 /(2b 2)) > A exp(-( X-1) 2 /(2b 2)),

Vydělením levé strany nerovnosti pravou dostaneme

(b/A) exp((1-2 X)/(2b 2)) >1,

kde po logaritmování najdeme

1-2X> 2b 2 ln(a/b)

X< 0.5 - б 2 ln(a/b)

Z výsledné nerovnosti vyplývá, že kdy a=b, tj. se stejnou apriorní pravděpodobností výskytu signálů 0 a 1 je snímku přiřazena hodnota 0, když X<0.5, а значение 1, когда X>0.5.

Pokud je předem známo, že jeden ze signálů se objevuje častěji a druhý méně často, tzn. v případě nestejných hodnot A A b práh odezvy klasifikátoru se posune jedním nebo druhým směrem.

Takže když a/b=2,71 (což odpovídá 2,71krát častějšímu přenosu jednotek) a b 2 =0,1, obrázku je přiřazena hodnota 0, pokud X<0.4, и значение 1, если X>0,4. Pokud neexistují žádné informace o předchozích pravděpodobnostech rozdělení, lze použít metody statistického rozpoznávání, které jsou založeny na jiných klasifikačních pravidlech než Bayesian.

V praxi jsou však nejrozšířenější metody založené na Bayesových pravidlech kvůli jejich větší účinnosti a také kvůli tomu, že ve většině problémů s rozpoznáváním vzorů je možné nastavit a priori pravděpodobnosti vzhledu obrázků každé třídy.

Lingvistické metody rozpoznávání vzorů.

Lingvistické metody rozpoznávání vzorů jsou založeny na analýze popisu idealizovaného obrazu prezentovaného ve formě grafu nebo řetězce znaků, což je fráze nebo věta určitého jazyka.

Zvažte idealizované obrazy písmen získané jako výsledek první fáze lingvistického rozpoznávání popsaného výše. Tyto idealizované obrazy mohou být specifikovány popisy grafů, prezentovaných například ve formě spojovacích matic, jak bylo provedeno v příkladu diskutovaném výše. Stejný popis může být reprezentován frází formálního jazyka (výrazem).

Příklad. Nechť jsou uvedeny tři obrázky písmene A, získané jako výsledek předběžného zpracování obrazu. Označme tyto obrázky identifikátory A1, A2 a A3.

K lingvistickému popisu prezentovaných obrázků použijeme PDL (Picture Description Language). Slovník PDL obsahuje následující symboly:

1. Názvy nejjednodušších obrázků (primitiv). Při použití na posuzovaný případ jsou primitiva a jejich odpovídající názvy následující.

Obrázky ve formě směrované čáry:

nahoru a doleva (le F t), sever (sever), nahoru a doprava (vpravo), východ).

Jména: L, N, R, E.

2. Symboly binárních operací. (+,*,-) Jejich význam odpovídá sekvenčnímu spojení primitiv (+), spojení začátků a konců primitiv (*), spojení pouze koncovek primitiv (-).

3. Pravá a levá závorka. ((,)) Závorky umožňují určit posloupnost operací ve výrazu.

Uvažované obrázky A1, A2 a A3 jsou popsány v jazyce PDL pomocí následujících výrazů.

T(l)=R+((R-(L+N))*E-L

T(2)=(R+N)+((N+R)-L)*E-L

T(3)=(N+R)+(R-L)*E-(L+N)

Po zkonstruování lingvistického popisu obrázku je nutné pomocí nějaké rozpoznávací procedury analyzovat, zda tento obrázek patří do třídy, která nás zajímá (třída písmen A), tzn. Zda tento obrázek má nebo nemá nějakou strukturu. K tomu je nejprve nutné popsat třídu obrázků, které mají strukturu, která nás zajímá.

Je zřejmé, že písmeno A vždy obsahuje následující konstrukční prvky: levou nohu, pravou nohu a hlavu. Nazvěme tyto prvky STL, STR, TR, resp.

Potom je v jazyce PDL symbol třídy A - SIMB A popsán výrazem

SIMB A = STL + TR - STR

Levá "noha" STL je vždy řetězec prvků R a N, které lze zapsat takto

STL ‑> R ¦ N ¦ (STL + R)¦ (STL + N)

(STL je znak R nebo N nebo řetězec získaný přidáním znaků R nebo N do zdrojového řetězce STL)

Pravou „nohou“ STR je vždy řetězec prvků L a N, který lze zapsat takto, tzn.

STR ‑> L¦N¦ (STR + L)¦ (STR + N)

Hlavová část písmene - TR je uzavřený obrys tvořený prvkem E a řetězy jako STL a STR.

V PDL je struktura TR popsána výrazem

TR -> (STL - STR) * E

Konečně dostáváme následující popis třídy písmen A:

SIMB A -> (STL + TR - STR),

STL ‑> R¦N¦ (STL + R)¦ (STL + N)

STR ‑> L¦N¦ (STR + L)¦ (STR + N)

TR -> (STL - STR) * E

Postup uznávání lze v tomto případě provést následovně.

1. Výraz odpovídající obrázku se porovná s referenční strukturou STL + TR - STR.

2. Každý prvek struktury STL, TR, STR pokud možno, tzn. pokud je popis obrázku srovnatelný se standardem, je párován nějaký podvýraz z výrazu T(A). Například,

pro A1: STL=R, STR=L, TR=(R-(L+N))*E

pro A2: STL = R + N, STR = L, TR = ((N + R) - L) * E

pro A3: STL = N + R, STR = L + N, TR = (R - L) * E 3.

Exprese STL, STR, TR jsou porovnány s jejich odpovídajícími referenčními strukturami.

4. Pokud struktura každého výrazu STL, STR, TR odpovídá standardu, je učiněn závěr, že obrázek patří do písmenové třídy A. Pokud v některém ze stádií 2, 3, 4 dojde k nesrovnalosti mezi strukturou analyzovaného výraz a standard je detekován, dojde se k závěru, že obrázek nepatří do třídy SIMB A. Porovnání výrazových struktur lze provést pomocí algoritmických jazyků LISP, PLANER, PROLOG a dalších podobných jazyků umělé inteligence.

V uvažovaném příkladu jsou všechny řetězce STL složeny ze symbolů N a R a řetězce STR jsou složeny ze symbolů L a N, což odpovídá dané struktuře těchto řetězců. Struktura TR na uvažovaných snímcích také odpovídá referenční, protože sestává z „rozdílu“ řetězců jako STL, STR, „násobeného“ symbolem E.

Dojdeme tedy k závěru, že uvažované obrázky patří do třídy SIMB A.


Syntéza fuzzy regulátoru pro stejnosměrný elektrický pohonv prostředí MatLab

Syntéza fuzzy regulátoru s jedním vstupem a výstupem.

Úkolem je přimět měnič, aby přesně sledoval různé vstupní signály. Vývoj řídicí akce je realizován fuzzy regulátorem, ve kterém lze strukturálně rozlišit následující funkční bloky: fuzzifier, blok pravidel a defuzzifier.

Obr.4 Zobecněné funkční schéma systému se dvěma lingvistickými proměnnými.

Obr.5 Schematický diagram fuzzy regulátor se dvěma lingvistickými proměnnými.

Algoritmus fuzzy řízení je v obecném případě transformací vstupních proměnných fuzzy regulátoru na jeho výstupní proměnné pomocí následujících vzájemně souvisejících postupů:

1. transformace vstupních fyzikálních proměnných přijatých z měřicích senzorů z řídicího objektu na vstupní lingvistické proměnné fuzzy regulátoru;

2. zpracování logických příkazů, nazývaných lingvistická pravidla, týkající se vstupních a výstupních jazykových proměnných regulátoru;

3. transformace výstupních jazykových proměnných fuzzy regulátoru na fyzikální řídicí proměnné.

Podívejme se nejprve na nejjednodušší případ, kdy jsou pro řízení servopohonu zavedeny pouze dvě lingvistické proměnné:

„úhel“ je vstupní proměnná;

„kontrolní akce“ je výstupní proměnná.

Kontrolér budeme syntetizovat v prostředí MatLab pomocí toolboxu Fuzzy Logic. Umožňuje vytvářet fuzzy inference a fuzzy klasifikační systémy v prostředí MatLab s možností jejich integrace do Simulinku. Základním konceptem Fuzzy Logic Toolbox je struktura FIS – Fuzzy Inference System. Struktura FIS obsahuje všechna potřebná data pro realizaci funkčního mapování „vstupy-výstupy“ na základě fuzzy logické inference podle schématu na Obr. 6.


Obrázek 6. Fuzzy inference.

X - vstupní ostrý vektor; - vektor fuzzy množin odpovídající vstupnímu vektoru X;
- výsledek logické inference ve formě vektoru fuzzy množin Y - výstupní čistý vektor.

Fuzzy modul umožňuje budovat fuzzy systémy dvou typů – Mamdani a Sugeno. V systémech jako Mamdani se znalostní báze skládá z pravidel formuláře „Pokud x 1 = nízké a x 2 = střední, pak y = vysoké“. V systémech typu Sugeno se znalostní báze skládá z pravidel formuláře "Pokud x 1 = nízké a x 2 = střední, pak y = a 0 +a 1 x 1 +a 2 x 2 ". Hlavní rozdíl mezi systémy Mamdani a Sugeno tedy spočívá v různých způsobech specifikace hodnot výstupní proměnné v pravidlech, které tvoří znalostní bázi. V systémech typu Mamdani jsou hodnoty výstupní proměnné specifikovány fuzzy termy, v systémech typu Sugeno - jako lineární kombinace vstupních proměnných. V našem případě použijeme systém Sugeno, protože hodí se lépe k optimalizaci.

Pro ovládání servopohonu jsou zavedeny dvě jazykové proměnné: „chyba“ (podle polohy) a „činnost řízení“. První z nich je vstup, druhý je výstup. Definujme množinu termínů pro zadané proměnné.

Základní komponenty fuzzy logické inference. Fuzzifier.

Pro každou lingvistickou proměnnou definujeme základní termínovou množinu formuláře, která zahrnuje fuzzy množiny, které lze označit: záporná vysoká, záporná nízká, nula, kladná nízká, kladná vysoká.

Nejprve si subjektivně definujme, co se rozumí pod pojmy „velká chyba“, „malá chyba“ atd., definující funkce příslušnosti pro odpovídající fuzzy množiny. Zde se zatím můžete řídit pouze požadovanou přesností, známými parametry pro třídu vstupních signálů a zdravým rozumem. Nikdo zatím nebyl schopen navrhnout žádný striktní algoritmus pro volbu parametrů funkcí členství. V našem případě bude jazyková proměnná „chyba“ vypadat takto.

Obr.7. Jazyková proměnná „chyba“.

Je vhodnější prezentovat jazykovou proměnnou „control“ ve formě tabulky:

stůl 1

Blok pravidel.

Podívejme se na posloupnost definování několika pravidel, která popisují některé situace:

Předpokládejme například, že výstupní úhel je roven vstupnímu signálu (tj. chyba je nulová). Je zřejmé, že se jedná o žádoucí situaci, a proto nemusíme nic dělat (kontrolní akce je nulová).

Nyní zvažte jiný případ: chyba polohy je mnohem větší než nula. Přirozeně to musíme kompenzovat generováním velkého pozitivního kontrolního signálu.

Že. byla vypracována dvě pravidla, která lze formálně definovat takto:

Li chyba = null, Že kontrolní akce = nula.

Li chyba = velké kladné, Že kontrolní vliv = velký klad.

Obr.8. Vytvoření kontroly s malou kladnou chybou v poloze.

Obr.9. Tvorba kontroly s chybou nulové polohy.

Níže uvedená tabulka ukazuje všechna pravidla odpovídající všem situacím pro tento jednoduchý případ.

tabulka 2

Celkově lze pro fuzzy regulátor s n vstupy a 1 výstupem definovat pravidla řízení, kde je počet fuzzy množin pro i-tý vstup, ale pro normální fungování regulátoru není nutné používat všechny možné pravidla, ale vystačíte si s menším počtem z nich. V našem případě je pro generování fuzzy řídicího signálu použito všech 5 možných pravidel.

Defuzzifier.

Výsledný dopad U tedy bude určen podle splnění nějakého pravidla. Pokud nastane situace, kdy se provádí několik pravidel najednou, pak se výsledný dopad U zjistí podle následujícího vztahu:

, kde n je počet spuštěných pravidel (defuzzifikace metodou centra regionu), u n– fyzikální hodnota řídicího signálu odpovídající každé z fuzzy množin UBO, UMo, UZ, UMp, UBP. mUn(u)– stupeň příslušnosti řídicího signálu u k odpovídající fuzzy množině Un=( UBO, UMo, UZ, UMp, UBP). Existují i ​​jiné metody defuzzifikace, kde je výstupní lingvistická proměnná úměrná „nejsilnějšímu“ nebo „nejslabšímu“ pravidlu.

Pojďme modelovat proces řízení elektrického pohonu pomocí výše popsaného fuzzy regulátoru.

Obr. 10 Blokové schéma systému v prostředíMatlab.

Obr. 11 Blokové schéma fuzzy regulátoru v prostředíMatlab.

Obr. 12 Přechodný proces v jednom kroku.

Rýže. 13. Přechodný proces při harmonickém vstupu pro model s fuzzy regulátorem obsahujícím jednu vstupní lingvistickou proměnnou.

Analýza charakteristik pohonu se syntetizovaným řídicím algoritmem ukazuje, že nejsou zdaleka optimální a horší než při syntetizovaném řízení jinými metodami (čas řízení je příliš dlouhý na jednokrokovou akci a chyba je harmonická). To se vysvětluje tím, že parametry funkcí členství byly zvoleny zcela libovolně a jako vstupy regulátoru byla použita pouze hodnota chyby polohy. O nějaké optimalitě výsledného regulátoru samozřejmě nemůže být řeč. Proto se úkol optimalizace fuzzy regulátoru stává relevantním pro dosažení co nejvyšších ukazatelů kvality řízení. Tito. Úkolem je optimalizovat účelovou funkci f(a 1 ,a 2 …a n), kde a 1 ,a 2 …a n jsou koeficienty určující typ a charakteristiky fuzzy regulátoru. Pro optimalizaci fuzzy regulátoru použijeme blok ANFIS z prostředí Matlab. Jedním ze způsobů, jak zlepšit vlastnosti regulátoru, může být také zvýšení počtu jeho vstupů. Regulátor tak bude flexibilnější a zlepší se jeho výkon. Přidejme ještě jednu vstupní lingvistickou proměnnou - rychlost změny vstupního signálu (jeho derivace). Počet pravidel se odpovídajícím způsobem zvýší. Schéma zapojení regulátoru pak bude mít tvar:

Obr. 14 Schéma fuzzy regulátoru se třemi lingvistickými proměnnými.

Nechť je hodnota rychlosti vstupního signálu. Základní pojem množina Tn definujeme jako:

Tn=("negativní (BO)", "nula (Z)", "pozitivní (BP)").

Umístění funkcí příslušnosti pro všechny jazykové proměnné je znázorněno na obrázku.

Obr. Členské funkce jazykové proměnné „chyba“.

Obr. 16. Funkce členství lingvistické proměnné „rychlost vstupního signálu“.

Díky přidání jedné další jazykové proměnné se počet pravidel zvýší na 3x5=15. Princip jejich sestavování je zcela podobný tomu, o kterém jsme hovořili výše. Všechny jsou uvedeny v následující tabulce:

Tabulka 3

Fuzzy signál

řízení

Chyba polohy

Rychlost

Například pokud Li chyba = nula a derivace vstupního signálu = velká kladná, Že kontrolní vliv = malý zápor.

Obr. 17. Formování kontroly pod třemi lingvistickými proměnnými.

Vzhledem k nárůstu počtu vstupů a tím i samotných pravidel se struktura fuzzy regulátoru stane složitější.

Obr. Blokové schéma fuzzy regulátoru se dvěma vstupy.

Přidejte obrázek

Obr.20. Přechodný proces při harmonické vstupní akci pro model s fuzzy regulátorem obsahujícím dvě vstupní lingvistické proměnné.

Rýže. 21. Chybový signál při harmonické vstupní akci pro model s fuzzy regulátorem obsahujícím dvě vstupní lingvistické proměnné.

Simulujme činnost fuzzy regulátoru se dvěma vstupy v prostředí Matlab. Blokové schéma modelu bude přesně stejné jako na Obr. 19. Z grafu přechodového děje pro harmonický vstupní efekt je vidět, že se výrazně zvýšila přesnost soustavy, ale zároveň se zvýšila její oscilace, zejména v místech, kde má derivace výstupní souřadnice tendenci. na nulu. Je zřejmé, že důvodem, jak bylo uvedeno výše, je neoptimální volba parametrů funkce příslušnosti pro vstupní i výstupní lingvistické proměnné. Proto optimalizujeme fuzzy regulátor pomocí bloku ANFISedit v prostředí Matlab.

Optimalizace fuzzy regulátoru.

Zvažme použití genetických algoritmů k optimalizaci fuzzy regulátoru. Genetické algoritmy jsou adaptivní vyhledávací metody, které se v poslední době často používají k řešení problémů funkční optimalizace. Jsou založeny na podobnosti s genetickými procesy biologických organismů: biologické populace se vyvíjejí několik generací, řídí se zákony přirozeného výběru a podle principu „přežití nejschopnějších“, který objevil Charles Darwin. Napodobováním tohoto procesu jsou genetické algoritmy schopny „vyvíjet“ řešení problémů reálného světa, pokud jsou vhodně kódovány.

Genetické algoritmy pracují se sbírkou „jednotlivců“ – populací, z nichž každý reprezentuje Možné řešení tento problém. Každý jedinec je posuzován mírou jeho „přizpůsobivosti“ podle toho, jak „dobré“ je řešení problému, který mu odpovídá. Nejzdatnější jedinci jsou schopni „rozmnožovat“ potomstvo „křížením“ s jinými jedinci v populaci. To vede ke vzniku nových jedinců, kteří kombinují některé vlastnosti, které zdědí od svých rodičů. Nejméně zdatní jedinci se méně pravděpodobně rozmnožují, takže jakékoli vlastnosti, které měli, postupně mizí z populace.

Takto se reprodukuje celá nová populace proveditelných řešení, vybírá se nejlepší zástupci předchozí generace, kříží se a získává se mnoho nových jedinců. Tato nová generace obsahuje vyšší poměr vlastností, které měli dobří členové předchozí generace. Z generace na generaci se tak dobré vlastnosti šíří po celé populaci. V konečném důsledku se populace sblíží k optimálnímu řešení problému.

Existuje mnoho způsobů, jak implementovat myšlenku biologické evoluce v rámci genetických algoritmů. Tradiční lze znázornit jako následující blokové schéma zobrazené na obrázku 22, kde:

1. Inicializace počáteční populace – vygenerování daného počtu řešení problému, kterým začíná proces optimalizace;

2. Aplikace operátorů křížení a mutací;

3. Zastavovací podmínky – obvykle proces optimalizace pokračuje, dokud není nalezeno řešení problému s danou přesností, nebo dokud není určeno, že proces konvergoval (tj. řešení problému se za posledních N generací nezlepšilo).

V prostředí Matlab jsou genetické algoritmy reprezentovány samostatným toolboxem a také balíčkem ANFIS. ANFIS je zkratka pro Adaptive-Network-Based Fuzzy Inference System - adaptivní fuzzy inferenční síť. ANFIS je jednou z prvních variant hybridních neuro-fuzzy sítí - speciální typ dopředné neuronové sítě. Architektura neuro-fuzzy sítě je izomorfní k fuzzy znalostní bázi. Neuro-fuzzy sítě využívají diferencovatelné implementace trojúhelníkových norem (násobení a pravděpodobnostní OR), stejně jako funkce hladké příslušnosti. To vám umožňuje používat rychlé a genetické algoritmy pro trénování neuronových sítí založené na metodě backpropagation pro nastavení neuro-fuzzy sítí. Architektura a provozní pravidla každé vrstvy sítě ANFIS jsou popsány níže.

ANFIS implementuje fuzzy inferenční systém Sugeno jako pětivrstvou dopřednou neuronovou síť. Účel vrstev je následující: první vrstva jsou členy vstupních proměnných; druhá vrstva - antecedenty (premisy) fuzzy pravidel; třetí vrstvou je normalizace stupňů dodržování pravidel; čtvrtou vrstvou je závěr pravidel; pátou vrstvou je agregace výsledku získaného podle různých pravidel.

Síťové vstupy nejsou přiděleny samostatné vrstvě. Obrázek 23 ukazuje síť ANFIS s jednou vstupní proměnnou („chyba“) a pěti fuzzy pravidly. Pro lingvistické vyhodnocení vstupní proměnné „chyba“ se používá 5 termínů.


Obr.23. StrukturaANFIS-sítě

Uveďme následující notaci potřebnou pro další prezentaci:

Nechť jsou síťové vstupy;

y - síťový výstup;

Fuzzy pravidlo s pořadovým číslem r;

m - počet pravidel;

Fuzzy term s funkcí příslušnosti používaný pro lingvistické hodnocení proměnné v r-tém pravidle (,);

Reálná čísla v závěru r-tého pravidla (,).

Síť ANFIS funguje následovně.

Vrstva 1. Každý uzel v první vrstvě představuje jeden člen s funkcí členství ve tvaru zvonu. Síťové vstupy jsou připojeny pouze ke svým členům. Počet uzlů v první vrstvě je roven součtu mohutností množin termínů vstupních proměnných. Výstup uzlu je míra, do jaké hodnota vstupní proměnné patří k odpovídajícímu fuzzy členu:

,

kde a, b a c jsou konfigurovatelné parametry funkce členství.

Vrstva 2 Počet uzlů ve druhé vrstvě je m. Každý uzel v této vrstvě odpovídá jednomu fuzzy pravidlu. Uzel druhé vrstvy je spojen s těmi uzly první vrstvy, které tvoří předchůdce odpovídajícího pravidla. Každý uzel ve druhé vrstvě tedy může přijímat od 1 do n vstupních signálů. Výstupem uzlu je stupeň splnění pravidla, který se vypočítá jako součin vstupních signálů. Označme výstupy uzlů této vrstvy , .

Vrstva 3. Počet uzlů ve třetí vrstvě je také m. Každý uzel této vrstvy vypočítá relativní stupeň splnění fuzzy pravidla:

Vrstva 4. Počet uzlů ve čtvrté vrstvě je také m. Každý uzel je připojen k jednomu uzlu třetí vrstvy i ke všem síťovým vstupům (propojení se vstupy není na obr. 18 znázorněno). Uzel čtvrté vrstvy počítá příspěvek jednoho fuzzy pravidla k výstupu sítě:

Vrstva 5. Jediný uzel v této vrstvě shrnuje příspěvky všech pravidel:

.

Pro konfiguraci sítě ANFIS lze použít typické postupy pro trénování neuronových sítí, protože používá pouze diferencovatelné funkce. Typicky se používá kombinace sestupu gradientu ve formě zpětného šíření a nejmenších čtverců. Algoritmus zpětného šíření upravuje parametry předchůdců pravidel, tzn. členské funkce. Koeficienty závěrů pravidel se odhadují pomocí metody nejmenších čtverců, protože jsou lineárně vztaženy k výstupu sítě. Každá iterace procedury nastavení se provádí ve dvou krocích. V první fázi je na vstupy přiveden trénovací vzorek a na základě nesouladu mezi požadovaným a skutečným chováním sítě jsou pomocí iterační metody nejmenších čtverců nalezeny optimální parametry uzlů čtvrté vrstvy. Ve druhé fázi je zbytkový zbytek převeden z výstupu sítě na vstupy a parametry uzlů první vrstvy jsou upraveny metodou backpropagation. V tomto případě se koeficienty závěru pravidla nalezené v první fázi nemění. Postup iterativního ladění pokračuje, dokud nesrovnalost nepřekročí předem stanovenou hodnotu. Pro nastavení funkcí příslušnosti lze kromě metody backpropagation použít i další optimalizační algoritmy, např. Levenberg-Marquardt metodu.

Obr.24. Pracovní oblast ANFISedit.

Pokusme se nyní optimalizovat fuzzy regulátor pro jednokrokovou akci. Požadovaný přechodný proces má přibližně následující podobu:

Obr.25. Požadovaný přechodový proces.

Z grafu na Obr. Z toho vyplývá, že většinu času by měl motor běžet plná síla aby byl zajištěn maximální výkon a při přiblížení k požadované hodnotě by měl plynule zpomalovat. Na základě těchto jednoduchých argumentů vezmeme následující vzorek hodnot, který je uveden níže ve formě tabulky, jako trénovací vzorek:

Tabulka 4


Chybová hodnota

Kontrolní hodnota

Chybová hodnota

Kontrolní hodnota

Chybová hodnota

Kontrolní hodnota


Obr.26. Typ tréninkového vzorku.

Školení provedeme ve 100 krocích. To je pro konvergenci použité metody více než dostatečné.

Obr.27. Proces trénování neuronové sítě.

Během procesu učení se parametry funkcí příslušnosti tvoří tak, že pro danou chybovou hodnotu regulátor vytvoří potřebnou kontrolu. V oblasti mezi uzlovými body je závislost řízení na chybě interpolací dat tabulky. Interpolační metoda závisí na tom, jak je neuronová síť trénována. Ve skutečnosti lze po trénování model fuzzy regulátoru reprezentovat jako nelineární funkci jedné proměnné, jejíž graf je uveden níže.

Obr.28. Graf řízení versus chyba polohy uvnitř ovladače.

Po uložení nalezených parametrů funkcí příslušnosti simulujeme systém pomocí optimalizovaného fuzzy regulátoru.


Rýže. 29. Přechodný proces při působení harmonického vstupu pro model s optimalizovaným fuzzy regulátorem obsahujícím jednu vstupní lingvistickou proměnnou.

Obr.30. Chybový signál při harmonické vstupní akci pro model s fuzzy regulátorem obsahujícím dvě vstupní lingvistické proměnné.


Z grafů vyplývá, že optimalizace fuzzy regulátoru pomocí trénování neuronové sítě byla úspěšná. Variabilita a velikost chyby byly výrazně sníženy. Proto je použití neuronové sítě zcela oprávněné pro optimalizaci regulátorů, jejichž princip činnosti je založen na fuzzy logice. Ani optimalizovaný regulátor však nemůže uspokojit požadavky na přesnost, proto je vhodné zvážit jiný způsob řízení, kdy fuzzy regulátor neřídí přímo objekt, ale kombinuje více zákonů řízení v závislosti na aktuální situaci.

Obrazem se rozumí strukturovaný popis studovaného předmětu nebo jevu, reprezentovaný vektorem znaků, jehož každý prvek představuje číselnou hodnotu jednoho ze znaků charakterizujících odpovídající objekt.

Obecná struktura systému rozpoznávání je následující:

Smyslem rozpoznávacího úkolu je zjistit, zda zkoumané objekty mají pevně stanovenou konečnou množinu znaků, které jim umožňují zařadit je do určité třídy. Rozpoznávací úlohy mají tyto charakteristické rysy:

1. Jedná se o informační úkoly sestávající ze dvou fází:

A. Redukce zdrojových dat do formy vhodné pro rozpoznávání.

b. Samotné rozpoznání je indikací, že objekt patří do určité třídy.

2. V těchto úlohách můžete zavést koncept analogie nebo podobnosti objektů a formulovat koncept blízkosti objektů jako základ pro klasifikaci objektů do stejné třídy nebo různých tříd.

3. V těchto úlohách můžete pracovat se sadou precedentů – příkladů, jejichž klasifikace je známá a které lze ve formě formalizovaných popisů předložit rozpoznávacímu algoritmu, aby se přizpůsobil úloze během procesu učení.

4. Pro tyto problémy je obtížné budovat formální teorie a aplikovat klasické matematické metody: často informace pro přesný matematický model nebo zisk z použití modelu a matematických metod nejsou úměrné nákladům.

5. V těchto úlohách jsou možné „špatné informace“ – informace s vynecháním, heterogenní, nepřímé, nejasné, nejednoznačné, pravděpodobnostní.

Je vhodné rozlišovat následující typy úloh rozpoznávání:

1. Rozpoznávací úkol, tedy přiřazení prezentovaného předmětu podle jeho popisu do jedné z daných tříd (učení pod vedením).

2. Úkolem automatické klasifikace je rozdělení množiny objektů (situací) podle jejich popisu do systému nepřekrývajících se tříd (taxonomie, shluková analýza, neřízené učení).

3. Úkol výběru informativního souboru vlastností během rozpoznávání.

4. Úkol zredukovat zdrojová data do formy vhodné pro rozpoznání.

5. Dynamické rozpoznávání a dynamická klasifikace - úlohy 1 a 2 pro dynamické objekty.

6. Problém prognózování - problémy 5, ve kterých se rozhodnutí musí vztahovat k nějakému bodu v budoucnosti.

Koncept obrazu.

Obrázek, třída je klasifikační seskupení v systému, které sjednocuje (vybírá) určitou skupinu objektů podle určitého kritéria. Obrazy mají řadu charakteristických vlastností, které se projevují tím, že seznámení s konečným počtem jevů ze stejné množiny umožňuje rozpoznat libovolně velký počet jejích zástupců.


Za obraz lze považovat i určitou množinu stavů řídicího objektu a celá tato množina stavů se vyznačuje tím, že pro dosažení daného cíle je zapotřebí stejný dopad na objekt. Obrazy mají charakteristické objektivní vlastnosti v tom smyslu odlišní lidé, trénované na různém pozorovacím materiálu, většinou klasifikují stejné objekty stejným způsobem a nezávisle na sobě.

Obecně se problém rozpoznávání vzorů skládá ze dvou částí: tréninku a rozpoznávání.

Školení se provádí ukázáním jednotlivých objektů, které označují jejich příslušnost k jednomu nebo druhému obrázku. V důsledku tréninku musí rozpoznávací systém získat schopnost reagovat stejnými reakcemi na všechny objekty stejného obrázku a různými reakcemi na všechny objekty různých obrázků.

Je velmi důležité, že proces učení by měl být dokončen pouze zobrazením konečného počtu objektů bez jakýchkoli dalších výzev. Předměty učení mohou být buď vizuální obrazy, nebo různé jevy vnějšího světa a další.

Po tréninku následuje proces rozpoznávání nových objektů, který charakterizuje působení již natrénovaného systému. Automatizace těchto postupů je problémem výuky rozpoznávání vzorů. V případě, že člověk sám vyřeší nebo vymyslí a poté uloží klasifikační pravidla do počítače, je problém rozpoznávání částečně vyřešen, protože hlavní a hlavní část problému (školení) přebírá osoba.

Problém rozpoznávání vzorů ve výuce je zajímavý z aplikovaného i základního hlediska. Z aplikačního hlediska je řešení tohoto problému důležité především proto, že otevírá možnost automatizace mnoha procesů, které byly dosud spojeny pouze s činností živého mozku. Zásadní význam problému souvisí s otázkou, co počítač v zásadě umí a co nemůže.

Při řešení řídicích problémů pomocí metod rozpoznávání vzorů se místo termínu „obraz“ používá termín „stav“. Stav – určité formy zobrazení měřených proudových (okamžitých) charakteristik pozorovaného objektu, množina stavů určuje situaci.

Situace se obvykle nazývá určitý soubor stavů komplexního objektu, z nichž každý je charakterizován stejnými nebo podobnými vlastnostmi objektu. Pokud je například určitý řídicí objekt považován za objekt pozorování, pak situace kombinuje takové stavy tohoto objektu, ve kterých by měly být aplikovány stejné ovládací akce. Pokud je předmětem pozorování hra, pak situace spojuje všechny stavy hry.

Volba počátečního popisu objektů je jedním z ústředních úkolů problému rozpoznávání vzorů učení. Pokud je počáteční popis (prostor funkcí) úspěšně zvolen, může se úloha rozpoznávání ukázat jako triviální. Naopak špatně zvolený prvotní popis může vést buď k velmi obtížnému dalšímu zpracování informace, nebo k žádnému řešení.

Geometrické a strukturální přístupy.

Jakýkoli obrázek, který vznikne jako výsledek pozorování předmětu během tréninku nebo zkoušky, může být reprezentován jako vektor, a tedy jako bod v nějakém prostoru rysů.

Je-li uvedeno, že při zobrazení obrázků je možné je jednoznačně přiřadit jednomu ze dvou (nebo několika) obrázků, pak se tím říká, že v nějakém prostoru existují dvě nebo více oblastí, které nemají společné body, a že obraz bodu je z těchto oblastí. Každému bodu v takové oblasti lze přiřadit název, to znamená, že lze zadat název odpovídající obrázku.

Interpretujeme proces učení se rozpoznávání vzorů jako geometrický obrázek, přičemž se prozatím omezíme na případ rozpoznávání pouze dvou obrázků. Předpokládá se, že je předem známo pouze to, že je nutné oddělit dvě oblasti v nějakém prostoru a že jsou zobrazeny pouze body z těchto oblastí. Tyto oblasti samy o sobě nejsou předem určeny, to znamená, že neexistují žádné informace o umístění jejich hranic nebo pravidla pro určení, zda bod patří do určité oblasti.

Během tréninku jsou prezentovány body náhodně vybrané z těchto oblastí a jsou poskytovány informace o tom, do které oblasti prezentované body patří. Během školení nejsou poskytovány žádné další informace o těchto oblastech, tedy o umístění jejich hranic.

Cílem tréninku je buď sestrojit plochu, která by oddělovala nejen body zobrazené během tréninkového procesu, ale i všechny ostatní body k těmto oblastem patřící, nebo sestrojit plochy, které tyto oblasti spojují tak, aby každá z nich obsahovala pouze body jeden obrázek. Jinými slovy, cílem tréninku je zkonstruovat funkce z obrazových vektorů, které by byly například pozitivní ve všech bodech jednoho obrazu a negativní ve všech bodech jiného obrazu.

Vzhledem k tomu, že oblasti nemají společné body, existuje vždy celá množina takových oddělovacích funkcí a v důsledku tréninku musí být jedna z nich sestrojena. Pokud prezentované obrázky nepatří ke dvěma, ale k většímu počtu obrázků, pak je úkolem zkonstruovat pomocí bodů ukázaných při tréninku plochu oddělující od sebe všechny oblasti odpovídající těmto obrázkům.

Tento problém lze vyřešit například konstrukcí funkce, která nabývá stejné hodnoty v bodech v každé z oblastí a v bodech z různých oblastí musí být hodnota této funkce různá.

Může se zdát, že znát jen pár bodů z oblasti nestačí k izolaci celé oblasti. Ve skutečnosti je možné označit nekonečné množství různých oblastí, které obsahují tyto body, a bez ohledu na to, jak je z nich povrch sestaven, zvýrazněním oblasti je vždy možné označit jinou oblast, která povrch protíná a zároveň obsahuje zobrazené body.

Je však známo, že problém aproximace funkce z informací o ní v omezené množině bodů je výrazně užší než celá množina, na které je funkce dána, a je běžným matematickým problémem aproximace funkcí. Řešení takových problémů samozřejmě vyžaduje zavedení určitých omezení na uvažovanou třídu funkcí a volba těchto omezení závisí na povaze informací, které může učitel do vyučovacího procesu přidat.

Jedním z takových vodítek je hypotéza kompaktnosti obrázků.

Spolu s geometrickou interpretací problému rozpoznávání vzorů ve výuce existuje další přístup, který se nazývá strukturální neboli lingvistický. Uvažujme lingvistický přístup na příkladu vizuálního rozpoznávání obrazu.

Nejprve je identifikována sada výchozích konceptů - typické fragmenty nalezené na obrázku a charakteristiky vzájemné polohy fragmentů (vlevo, dole, uvnitř atd.). Tyto počáteční koncepty vytvořit slovník, který vám umožní konstruovat různé logické výroky, někdy nazývané věty.

Úkolem je vybrat z velkého množství výroků, které by bylo možné pomocí těchto pojmů sestavit, ty nejvýznamnější pro daný konkrétní případ. Dále, když si prohlížíte konečný a možná malý počet objektů z každého obrázku, musíte vytvořit popis těchto obrázků.

Konstruované popisy musí být tak úplné, aby vyřešily otázku, ke kterému obrazu daný objekt patří. Při implementaci lingvistického přístupu vyvstávají dva úkoly: úkol zkonstruovat výchozí slovník, tedy soubor typických fragmentů, a úkol sestrojit popisná pravidla z prvků daného slovníku.

V rámci lingvistického výkladu dochází k analogii mezi strukturou obrazů a syntaxí jazyka. Touhu po této analogii vyvolala možnost využít aparát matematické lingvistiky, to znamená, že metody jsou syntaktické povahy. Využití aparátu matematické lingvistiky k popisu struktury obrazů lze použít až poté, co byly obrazy rozděleny na jednotlivé části, tj. byla vyvinuta slova k popisu typických fragmentů a metod jejich hledání.

Po přípravných pracích zajišťujících výběr slov vyvstávají vlastní lingvistické úkoly, spočívající v úkolech automatického gramatického rozboru popisů pro rozpoznávání obrazu.

Hypotéza kompaktnosti.

Pokud předpokládáme, že během procesu učení se prostor rysů utváří na základě zamýšlené klasifikace, pak můžeme doufat, že samotná specifikace prostoru rysů specifikuje vlastnost, pod jejímž vlivem se obrazy v tomto prostoru snadno oddělují. Právě tyto naděje, jak se rozvíjely práce na poli rozpoznávání vzorů, podnítily vznik hypotézy kompaktnosti, která tvrdí, že obrazy odpovídají kompaktním množinám v prostoru rysů.

Kompaktní množinou rozumíme určité shluky bodů v obrazovém prostoru, za předpokladu, že mezi těmito shluky existují vzácnosti, které je oddělují. Tuto hypotézu však nebylo možné vždy experimentálně potvrdit. Ale ty úlohy, u kterých byla hypotéza kompaktnosti dobře splněna, našly vždy jednoduché řešení a naopak ty úlohy, u kterých se hypotéza nepotvrdila, buď nebyly vyřešeny vůbec, nebo byly vyřešeny s velkými obtížemi a zapojením dalších informací.

Samotná hypotéza kompaktnosti se stala známkou možnosti uspokojivého řešení problémů rozpoznávání.

Formulace hypotézy kompaktnosti nás přibližuje k pojmu abstraktního obrazu. Pokud jsou souřadnice prostoru vybrány náhodně, budou obrázky v něm rozmístěny náhodně. V některých částech prostoru budou umístěny hustěji než v jiných.

Nazvěme nějaký náhodně vybraný prostor abstraktním obrazem. V tomto abstraktním prostoru budou téměř jistě existovat kompaktní množiny bodů. V souladu s hypotézou kompaktnosti se proto množina objektů, jimž v abstraktním prostoru odpovídají kompaktní množiny bodů, obvykle říká abstraktní obrazy daného prostoru.

Školení a samoučení, adaptace a školení.

Pokud by bylo možné zaznamenat určitou univerzální vlastnost, která nezávisí ani na povaze obrazů, ani na jejich obrazech, ale určuje pouze schopnost oddělování, pak spolu s obvyklým úkolem naučit se rozpoznávání pomocí informací o sounáležitosti každého objekt z cvičné sekvence na ten či onen obrázek, je možné Bylo by možné představit jiný klasifikační problém - tzv. problém učení bez dozoru.

Úkol tohoto druhu na deskriptivní úrovni může být formulován následovně: systému jsou simultánně nebo postupně předkládány objekty bez jakéhokoli náznaku jejich příslušnosti k obrazům. Vstupní zařízení systému mapuje množinu objektů na množinu obrázků a s využitím určité předem vlastní oddělitelnosti obrázků vytváří nezávislou klasifikaci těchto objektů.

Po takovém samoučícím procesu by měl systém získat schopnost rozpoznávat nejen již známé předměty (předměty z cvičné sekvence), ale i ty, které dříve nebyly prezentovány. Proces sebeučení určitého systému je proces, v jehož důsledku tento systém, bez vyzvání učitele, získává schopnost vyvinout identické reakce na obrazy předmětů stejného obrazu a různé reakce na obrazy různých obrazů. .

Úlohou učitele je v tomto případě pouze navrhnout systému nějakou objektivní vlastnost, která je stejná pro všechny obrázky a určuje schopnost rozdělit mnoho objektů na obrázky.

Ukazuje se, že takovou objektivní vlastností je vlastnost kompaktnosti obrázků. Relativní poloha bodů ve vybraném prostoru již obsahuje informaci o tom, jak má být množina bodů rozdělena. Tato informace určuje vlastnost oddělitelnosti obrazu, která je dostatečná k tomu, aby se systém naučil rozpoznávání obrazu.

Většina známých samoučících se algoritmů je schopna identifikovat pouze abstraktní obrazy, tedy kompaktní množiny v daných prostorech. Rozdíl mezi nimi spočívá ve formalizaci pojmu kompaktnost. To však nesnižuje a někdy dokonce zvyšuje hodnotu samoučících se algoritmů, protože samotné obrázky často nejsou nikým předem definovány a úkolem je určit, které podmnožiny obrázků v daném prostoru obrázky představují.

Příkladem takového prohlášení o problému je sociologický výzkum, kdy jsou na základě souboru otázek identifikovány skupiny lidí. V tomto chápání problému samoučící se algoritmy generují dříve neznámé informace o existenci obrazů v daném prostoru, o kterých dříve nikdo neměl tušení.

Výsledek samoučení navíc charakterizuje vhodnost zvoleného prostoru pro konkrétní rozpoznávací učební úkol. Pokud se abstraktní obrazy identifikované v prostoru pro samoučení shodují s těmi skutečnými, pak byl prostor vybrán dobře. Čím více se abstraktní obrazy liší od skutečných, tím je zvolený prostor pro konkrétní úkol nevhodnější.

Učením se obvykle nazývá proces vyvíjení v určitém systému té či oné reakce na skupiny vnějších identických signálů opakovaným působením na systém vnějších úprav. Mechanismus pro generování této úpravy téměř úplně určuje algoritmus učení.

Samoučení se od školení liší tím, že zde nejsou poskytovány další informace o správnosti reakce na systém.

Adaptace je proces změny parametrů a struktury systému, případně kontrolních akcí, na základě aktuálních informací za účelem dosažení určitého stavu systému při počáteční nejistotě a měnících se provozních podmínkách.

Učení je proces, v jehož důsledku systém postupně získává schopnost reagovat potřebnými reakcemi na určité soubory vnějších vlivů a adaptace je úprava parametrů a struktury systému za účelem dosažení požadované kvality řízení. tváří v tvář neustálým změnám vnějších podmínek.


Systémy rozpoznávání řeči.

Řeč funguje jako hlavní prostředek komunikace mezi lidmi, a proto je verbální komunikace považována za jednu z nejdůležitějších součástí systému umělé inteligence. Rozpoznávání řeči je proces převodu akustického signálu generovaného na výstupu mikrofonu nebo telefonu na sekvenci slov.

Obtížnějším úkolem je porozumět řeči, která zahrnuje identifikaci významu akustického signálu. V tomto případě výstup subsystému rozpoznávání řeči slouží jako vstup subsystému porozumění promluvě. Automatické rozpoznávání řeči (ARR systémy) je jednou z oblastí technologií zpracování přirozeného jazyka.

Automatické rozpoznávání řeči se používá k automatizaci zadávání textu do počítače, při generování ústních dotazů do databází nebo systémů pro vyhledávání informací, při generování verbálních příkazů pro různá inteligentní zařízení.

Základní pojmy systémů rozpoznávání řeči.

Systémy rozpoznávání řeči se vyznačují mnoha parametry.

Jedním z hlavních parametrů je chyba rozpoznávání slov (WRO). Tento parametr je poměr počtu nerozpoznaných slov k celkovému počtu mluvených slov.

Další parametry charakterizující systémy automatického rozpoznávání řeči jsou:

1) velikost slovníku,

2) řečový režim,

3) styl řeči,

4) předmět,

5) závislost na řečníkovi,

6) hladina akustického hluku,

7) kvalita vstupního kanálu.

V závislosti na velikosti slovníku jsou systémy APP rozděleny do tří skupin:

S malou velikostí slovníku (až 100 slov),

S průměrnou velikostí slovní zásoby (od 100 slov do několika tisíc slov),

S velkou velikostí slovníku (více než 10 000 slov).

Režim řeči charakterizuje způsob vyslovování slov a frází. Rozlišují se rozpoznávací systémy souvislou řeč a systémy, které umožňují rozpoznávat pouze izolovaná slova řeči. Izolovaný režim rozpoznávání slov vyžaduje, aby se mluvčí mezi slovy krátce zastavil.

Podle stylu řeči se systémy APP dělí na dvě skupiny: deterministické řečové systémy a spontánní řečové systémy.

V deterministických systémech rozpoznávání řeči mluvčí reprodukuje řeč podle gramatických pravidel jazyka. Spontánní řeč se vyznačuje porušováním gramatických pravidel a je obtížnější ji rozpoznat.

Podle oborové oblasti se rozlišují APP systémy zaměřené na aplikaci ve vysoce specializovaných oblastech (například přístup k databázím) a APP systémy s neomezeným rozsahem použití. Ty vyžadují velkou slovní zásobu a musí umožňovat rozpoznání spontánní řeči.

Mnoho systémů automatického rozpoznávání řeči je závislých na mluvčím. To zahrnuje předběžné vyladění systému na výslovnostní vlastnosti konkrétního mluvčího.

Složitost řešení problému rozpoznávání řeči se vysvětluje velkou variabilitou akustických signálů. Tato variabilita je způsobena několika důvody:

Jednak odlišnou implementací fonémů - základních jednotek zvukové stavby jazyka. Variabilita v provádění fonémů je způsobena vlivem sousedních zvuků v řečovém proudu. Odstíny realizace fonémů určené zvukovým prostředím se nazývají alofony.

Za druhé, poloha a vlastnosti akustických přijímačů.

Za třetí změny v řečových parametrech téhož mluvčího, které jsou způsobeny odlišným emočním rozpoložením mluvčího a tempem jeho řeči.

Obrázek ukazuje hlavní součásti systému rozpoznávání řeči:

Digitalizovaný signál řeči je odeslán do jednotky předběžného zpracování, kde jsou extrahovány vlastnosti nezbytné pro rozpoznání zvuku. Rozpoznávání zvuku se často provádí pomocí modelů umělé neuronové sítě. Vybrané zvukové jednotky se následně použijí k vyhledání posloupnosti slov, která nejvíce odpovídá vstupnímu řečovému signálu.

Vyhledávání posloupnosti slov se provádí pomocí akustických, lexikálních a jazykových modelů. Parametry modelu jsou určeny z trénovacích dat na základě vhodných algoritmů učení.

Syntéza řeči z textu. Základní pojmy

Tvorba systémů umělé inteligence s prvky samokomunikace v mnoha případech vyžaduje výstup zpráv v řečové podobě. Obrázek ukazuje blokové schéma inteligentního systému otázka-odpověď s hlasovým rozhraním:

Obrázek 1.

Vezměte si kus přednášek od Olega

Uvažujme o rysech empirického přístupu na příkladu rozpoznávání slovních druhů. Úkolem je přiřadit ke slovům věty popisky: podstatné jméno, sloveso, předložka, přídavné jméno a podobně. Kromě toho je nutné určit některé další rysy podstatných jmen a sloves. Například pro podstatné jméno - číslo a pro sloveso - tvar. Pojďme si problém formalizovat.

Představme si větu jako posloupnost slov: W=w1 w2…wn, kde wn jsou náhodné proměnné, z nichž každá dostává jednu z možných hodnot patřících do jazykového slovníku. Posloupnost štítků přiřazených slovům věty může být reprezentována posloupností X=x1 x2 ... xn, kde xn jsou náhodné proměnné, jejichž hodnoty jsou určeny na množině možných štítků.

Úkolem rozpoznávání slovních druhů je pak najít nejpravděpodobnější posloupnost štítků x1, x2, ..., xn z dané posloupnosti slov w1, w2, ..., wn. Jinými slovy, je nutné najít posloupnost značek X*=x1 x2 … xn, která poskytuje maximální podmíněnou pravděpodobnost P(x1, x2, …, xn| w1 w2.. wn).

Přepišme podmíněnou pravděpodobnost P(X| W) na následující formulář P(X| W)=P(X,W) / P(W). Protože je potřeba najít maximum podmíněné pravděpodobnosti P(X,W) pro proměnnou X, dostaneme X*=arg x max P(X,W). Společnou pravděpodobnost P(X,W) lze zapsat jako součin podmíněných pravděpodobností: P(X,W)=součin u-1 až n z P(x i |x1,…,x i -1, w1,…, wi-1) P(w i |x1,…,xi-1, w1,…,w i-1). Přímé hledání maxima daného výrazu je obtížný úkol, protože pro velké hodnoty n se vyhledávací prostor stává velmi velkým. Proto jsou pravděpodobnosti, které jsou v tomto součinu zapsány, aproximovány jednoduššími podmíněnými pravděpodobnostmi: P(x i |x i -1) P(w i |w i -1). V tomto případě se předpokládá, že hodnota návěští x i je spojena pouze s předchozí návěští x i -1 a nezávisí na dřívějších návěštích, a také že pravděpodobnost slova w i je určena pouze aktuální návěští x i . Tyto předpoklady se nazývají Markovovy předpoklady ak řešení problému se používá teorie Markovových modelů. Vezmeme-li v úvahu Markovovy předpoklady, můžeme napsat:

X*= arg x1, …, xn max P i =1 n P(x i |x i -1) P(wi|wi-1)

Kde jsou podmíněné pravděpodobnosti odhadovány na sadě trénovacích dat

Hledání sekvence štítků X* se provádí pomocí Viterbiho dynamického programovacího algoritmu. Viterbiho algoritmus lze považovat za variantu vyhledávacího algoritmu na stavovém grafu, kde vrcholy odpovídají slovním štítkům.

Je charakteristické, že pro jakýkoli aktuální vrchol je sada podřízených štítků vždy stejná. Navíc pro každý podřízený vrchol se množiny rodičovských vrcholů také shodují. To je vysvětleno skutečností, že přechody se provádějí na stavovém grafu s přihlédnutím ke všem možným kombinacím štítků. Markovovy předpoklady poskytují výrazné zjednodušení problému rozpoznávání slovních druhů při zachování vysoké přesnosti při přiřazování popisků slovům.

S 200 štítky je tedy přesnost přiřazení přibližně 97 %. Na dlouhou dobu imperiální analýza byla provedena pomocí stochastických bezkontextových gramatik. Mají však významnou nevýhodu. Spočívá v tom, že různým gramatickým analýzám lze přiřadit stejné pravděpodobnosti. K tomu dochází, protože pravděpodobnost analýzy je reprezentována jako součin pravděpodobností pravidel zahrnutých do analýzy. Pokud se při analýze použijí různá pravidla, charakterizovaná stejnými pravděpodobnostmi, pak to vede k naznačenému problému. Nejlepších výsledků dosáhne gramatika, která zohledňuje slovní zásobu jazyka.

V tomto případě pravidla obsahují nezbytné lexikální informace, které poskytují různé hodnoty pravděpodobnosti pro stejné pravidlo v různých lexikálních prostředích. Imperiální analýza je více podobná rozpoznávání vzorů než tradiční analýze v jeho klasickém smyslu.

Srovnávací studie ukázaly, že přesnost imperiální analýzy v aplikacích přirozeného jazyka je vyšší než u tradiční analýzy.

Přehled existujících metod rozpoznávání vzorů

L.P. Popova , A O. Datiev

Schopnost "rozpoznat" je považován za základní vlastnost člověka, stejně jako jiných živých organismů. Rozpoznávání vzorů je odvětví kybernetiky, které rozvíjí principy a metody klasifikace, stejně jako identifikace objektů, jevů, procesů, signálů, situací - všech těch objektů, které lze popsat konečnou množinou nějakých znaků nebo vlastností, které charakterizují objekt. .

Obrázek je popis objektu. Obrazy mají charakteristickou vlastnost, která se projevuje tím, že seznámení s konečným počtem jevů ze stejné množiny umožňuje rozpoznat libovolně velký počet jejích zástupců.

V teorii rozpoznávání vzorů lze rozlišit dva hlavní směry:

    studium rozpoznávacích schopností, které mají lidské bytosti a jiné živé organismy;

    vývoj teorie a metod pro konstrukci zařízení určených k řešení jednotlivých problémů rozpoznávání vzorů v určitých aplikačních oblastech.

Dále článek popisuje problémy, principy a metody implementace systémů rozpoznávání obrazu spojené s vývojem druhého směru. Druhá část článku pojednává o metodách rozpoznávání vzorů pomocí neuronových sítí, které lze přiřadit k prvnímu směru teorie rozpoznávání vzorů.

Problémy budování systémů rozpoznávání obrazu

Problémy, které vznikají při budování systémů automatického rozpoznávání vzorů, lze obvykle rozdělit do několika hlavních oblastí. První z nich souvisí s prezentací počátečních dat získaných jako výsledky měření pro objekt, který má být rozpoznán problém s citlivostí. Každá naměřená hodnota je určitou „charakteristikou obrázku nebo předmětu. Předpokládejme například, že obrázky jsou alfanumerické znaky. V tomto případě může být měřicí sítnice podobná té na obr. 1(a). úspěšně použito v senzoru. Pokud se sítnice skládá z n-prvků, pak výsledky měření mohou být reprezentovány jako vektor měření nebo vektor obrazu ,

kde každý prvek xi má například hodnotu 1, pokud obraz symbolu prochází i-tou buňkou sítnice, a hodnotu 0 jinak.

Podívejme se na Obr. 2(b). V tomto případě jsou obrazy spojitými funkcemi (jako jsou zvukové signály) proměnné t. Pokud se měření funkčních hodnot provádí v diskrétních bodech t1,t2, ..., tn, pak lze obrazový vektor vytvořit tak, že vezmeme x1= f(t1),x2=f(t2),... , xn = f(tn).

Obrázek 1. Měření sítnice

Druhý problém rozpoznávání vzorů souvisí s výběrem charakteristické vlastnosti nebo vlastnosti ze získaných zdrojových dat a zmenšení rozměru obrazových vektorů. Tento problém je často definován jako problém předzpracování a výběr vlastností.

Vlastnosti třídy obrázků jsou charakteristické vlastnosti společné všem obrázkům dané třídy. Vlastnosti, které charakterizují rozdíly mezi jednotlivými třídami, lze interpretovat jako mezitřídní rysy. Vnitrotřídní rysy, společné pro všechny uvažované třídy, nenesou užitečné informace z hlediska rozpoznávání a nemusí být brány v úvahu. Výběr rysů je považován za jeden z důležitých úkolů spojených s konstrukcí rozpoznávacích systémů. Pokud nám výsledky měření umožní získat úplný soubor rozlišovacích znaků pro všechny třídy, nebude skutečné rozpoznání a klasifikace obrázků způsobovat žádné zvláštní potíže. Automatické rozpoznávání se pak zredukuje na jednoduchý proces párování nebo procedury, jako je skenování tabulky. Ve většině praktických problémů s rozpoznáváním se však určení úplného souboru rozlišovacích znaků ukazuje jako extrémně obtížné, ne-li nemožné. Obvykle je možné z původních dat extrahovat některé rozlišovací znaky a použít je ke zjednodušení procesu automatického rozpoznávání vzorů. Zejména rozměr měřicích vektorů lze zmenšit pomocí transformací, které minimalizují ztrátu informací.

Třetím problémem spojeným s konstrukcí systémů rozpoznávání vzorů je nalezení optimálních rozhodovacích postupů nezbytných pro identifikaci a klasifikaci. Jakmile jsou data shromážděná o vzorech, které mají být rozpoznány, reprezentována body nebo vektory měření v prostoru vzorů, nechte stroj zjistit, které třídě vzorů tato data odpovídají. Nechť je stroj navržen tak, aby rozlišoval třídy M, označované w1, w2, ... ..., wm. V tomto případě lze obrazový prostor považovat za sestávající z M oblastí, z nichž každá obsahuje body odpovídající obrazům z jedné třídy. V tomto případě lze úlohu rozpoznávání považovat za konstrukci hranic rozhodovacích oblastí oddělujících M třídy na základě registrovaných vektorů měření. Nechť jsou tyto hranice definovány např. rozhodovacími funkcemi d1(x), d2(x),..., dm(x). Tyto funkce, nazývané také diskriminační funkce, jsou skalární a jednohodnotové funkce obrazu x. Pokud di (x) > dj (x), pak obrázek x patří do třídy w1. Jinými slovy, pokud i-tý rozhodující funkce di(x) má nejvyšší hodnotu, pak je smysluplné znázornění takového automatického klasifikačního schématu založeného na realizaci rozhodovacího procesu na Obr. 2 (v diagramu „GR“ je generátor rozhodovacích funkcí).

Obrázek 2. Schéma automatické klasifikace.

Rozhodující funkce lze získat mnoha způsoby. V případech, kdy existují úplné apriorní informace o rozpoznaných obrazech, lze rozhodovací funkce určit přesně na základě těchto informací. Pokud jsou k dispozici pouze kvalitativní informace týkající se obrázků, lze učinit rozumné předpoklady o formě rozhodujících funkcí. V druhém případě se hranice oblastí řešení mohou výrazně odchylovat od skutečných, a proto je nutné vytvořit systém schopný dosáhnout uspokojivého výsledku řadou postupných úprav.

Objekty (obrázky), které mají být rozpoznány a klasifikovány pomocí systému automatického rozpoznávání vzorů, musí mít sadu měřitelných charakteristik. Když se pro celou skupinu snímků ukážou výsledky odpovídajících měření jako podobné, tyto objekty se považují za objekty patřící do stejné třídy. Účelem systému rozpoznávání vzorů je na základě shromážděných informací určit třídu objektů s vlastnostmi podobnými těm, které byly naměřeny u rozpoznávaných objektů. Správnost rozpoznání závisí na množství diskriminačních informací obsažených v měřených charakteristikách a efektivitě použití těchto informací.

      Základní metody implementace systémů rozpoznávání vzorů

Rozpoznávání vzorů se týká problému konstrukce a aplikace formálních operací s numerickými nebo symbolickými reprezentacemi objektů v reálném nebo ideálním světě, jejichž výsledky odrážejí vztahy ekvivalence mezi těmito objekty. Ekvivalenční vztahy vyjadřují příslušnost hodnocených objektů k libovolným třídám považovaným za samostatné sémantické jednotky.

Při konstrukci rozpoznávacích algoritmů může ekvivalenční třídy specifikovat výzkumník, který používá vlastní smysluplné nápady nebo využívá externí dodatečné informace o podobnostech a rozdílech objektů v kontextu řešeného problému. Pak mluví o „uznání s učitelem“. Jinak, tzn. Když automatizovaný systém vyřeší klasifikační problém bez použití externích školicích informací, mluvíme o automatické klasifikaci nebo „bez dozoru“. Většina algoritmů rozpoznávání vzorů vyžaduje použití velmi významného výpočetního výkonu, který může poskytnout pouze vysoce výkonná počítačová technologie.

Různí autoři (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., Dmitriev V.I., Dmitriev. Gonzalez, P. Winston, K. Fu, Ya.Z. Tsypkin atd.) uvádějí odlišnou typologii metod rozpoznávání vzorů. Někteří autoři rozlišují parametrické, neparametrické a heuristické metody, jiní identifikují skupiny metod vycházející z historicky zavedených škol a trendů v této oblasti.

Známé typologie přitom neberou v úvahu jednu velmi významnou charakteristiku, která odráží specifičnost způsobu reprezentace znalostí o určité oblasti pomocí jakéhokoli formálního algoritmu rozpoznávání vzorů. D.A. Pospelov identifikuje dva hlavní způsoby prezentace znalostí:

    Intenzionální zobrazení - ve formě diagramu vazeb mezi atributy (vlastnostmi).

    Extenzionální reprezentace - pomocí konkrétních faktů (předmětů, příkladů).

Je třeba poznamenat, že existence právě těchto dvou skupin metod rozpoznávání: těch, které pracují se znaky a těch, které pracují s předměty, je hluboce přirozená. Z tohoto pohledu žádná z těchto metod, braná odděleně od druhé, neumožňuje vytvořit adekvátní reflexi předmětné oblasti. Mezi těmito metodami existuje vztah komplementarity ve smyslu N. Bohra, proto by perspektivní rozpoznávací systémy měly zajistit implementaci obou těchto metod, nikoli pouze jedné z nich.

Klasifikace metod rozpoznávání navržená D.A. Pospelovem je tedy založena na základních vzorcích, které jsou základem lidského způsobu poznání obecně, což jej staví do zcela zvláštní (privilegované) pozice ve srovnání s jinými klasifikacemi, které na tomto pozadí vypadají odlehčeněji a umělý.

Intenzivní metody

Charakteristickým rysem intenzionálních metod je, že používají různé charakteristiky vlastností a jejich spojení jako prvky operací při konstrukci a aplikaci algoritmů rozpoznávání vzorů. Takovými prvky mohou být jednotlivé hodnoty nebo intervaly hodnot vlastností, průměrné hodnoty a rozptyly, matice vztahů mezi vlastnostmi atd., na kterých se provádějí akce, vyjádřené v analytické nebo konstruktivní formě. Objekty v těchto metodách přitom nejsou považovány za ucelené informační jednotky, ale fungují jako indikátory pro posouzení interakce a chování jejich atributů.

Skupina intenzionálních metod pro rozpoznávání vzorů je rozsáhlá a její rozdělení do podtříd je do jisté míry podmíněno:

– metody založené na odhadech distribučních hustot hodnot vlastností

– metody založené na předpokladech o třídě rozhodovacích funkcí

– logické metody

– lingvistické (strukturální) metody.

Metody založené na odhadech distribučních hustot hodnot vlastností. Tyto metody rozpoznávání vzorů jsou vypůjčeny z klasické teorie statistického rozhodování, ve které jsou předměty studia považovány za realizace vícerozměrné náhodné proměnné distribuované v prostoru příznaků podle nějakého zákona. Jsou založeny na bayesovském rozhodovacím schématu, které se odvolává na apriorní pravděpodobnosti objektů patřících do určité uznávané třídy a podmíněné hustoty distribuce hodnot vektoru příznaků. Tyto metody se scvrkají na určení poměru pravděpodobnosti v různých oblastech prostoru vícerozměrných prvků.

S metodami diskriminační analýzy přímo souvisí skupina metod založených na odhadu distribučních hustot hodnot znaků. Bayesovský přístup k rozhodování je jednou z nejrozvinutějších tzv. parametrických metod v moderní statistice, pro kterou je analytické vyjádření distribučního zákona (v tomto případě normálního zákona) považováno za známé a pouze malý počet parametrů ( vektory průměrných hodnot a kovarianční matice) je nutné odhadnout.

Do této skupiny patří i metoda výpočtu věrohodnostního poměru pro nezávislé charakteristiky. Tento způsob, s výjimkou předpokladu nezávislosti charakteristik (který ve skutečnosti není téměř nikdy naplněn), nepředpokládá znalost funkční podoby distribučního zákona. Lze ji klasifikovat jako neparametrickou metodu.

Zvláštní postavení zaujímají další neparametrické metody, používané v případech, kdy je neznámý tvar křivky hustoty distribuce a nelze o jeho povaze vůbec předpokládat. Patří mezi ně známá metoda vícerozměrných histogramů, metoda „k-nearest sousedů“, metoda euklidovské vzdálenosti, metoda potenciálních funkcí atd., jejichž zobecněním je metoda zvaná „Parzenovy odhady“. Tyto metody formálně operují s objekty jako integrálními strukturami, ale v závislosti na typu rozpoznávací úlohy mohou působit v intenzionální i extenzní formě.

Neparametrické metody analyzují relativní počty objektů spadajících do daných vícerozměrných objemů a využívají různé funkce vzdálenosti mezi objekty v trénovací množině a objekty, které jsou rozpoznávány. U kvantitativních charakteristik, kdy je jejich počet mnohem menší než velikost vzorku, hrají operace s objekty střední roli při odhadu lokálních distribučních hustot podmíněných pravděpodobností a objekty nenesou sémantické zatížení nezávislých informačních jednotek. Zároveň, když je počet znaků úměrný nebo větší než počet studovaných objektů a znaky jsou kvalitativního nebo dichotomického charakteru, pak nemůže být řeč o nějakých lokálních odhadech hustot rozdělení pravděpodobnosti. V tomto případě jsou objekty ve specifikovaných neparametrických metodách považovány za nezávislé informační jednotky (integrální empirická fakta) a tyto metody nabývají významu posuzování podobností a rozdílů studovaných objektů.

Stejné technologické operace neparametrických metod tedy v závislosti na podmínkách problému dávají smysl buď lokálním odhadům hustot rozdělení pravděpodobnosti hodnot příznaků, nebo odhadům podobnosti a rozdílnosti objektů.

V kontextu intenzionální reprezentace znalostí je zde uvažována první stránka neparametrických metod, jako odhady hustot rozdělení pravděpodobnosti. Mnoho autorů poznamenává, že v praxi dobře fungují neparametrické metody, jako jsou Parzenovy odhady. Hlavními obtížemi při používání těchto metod je nutnost pamatovat si celý trénovací vzorek pro výpočet odhadů lokálních hustot rozdělení pravděpodobnosti a vysoká citlivost na nereprezentativnost trénovacího vzorku.

Metody založené na předpokladech o třídě rozhodovacích funkcí. V této skupině metod je obecná forma rozhodovací funkce považována za známou a specifikován funkcionál její kvality. Na základě tohoto funkcionálu se v trénovací sekvenci hledá nejlepší aproximace rozhodovací funkce. Nejběžnější jsou reprezentace rozhodovacích funkcí ve formě lineárních a zobecněných nelineárních polynomů. Funkce kvality rozhodovacího pravidla je obvykle spojena s chybou klasifikace.

Hlavní výhodou metod založených na předpokladech o třídě rozhodovacích funkcí je jasnost matematické formulace rozpoznávacího problému jako problému hledání extrému. Řešení tohoto problému se často dosahuje pomocí některých gradientních algoritmů. Různorodost metod v této skupině je vysvětlena širokou škálou používaných funkcionálů kvality rozhodovacích pravidel a extremních vyhledávacích algoritmů. Zobecněním uvažovaných algoritmů, mezi které patří zejména Newtonův algoritmus, algoritmy perceptronového typu atd., je metoda stochastické aproximace. Na rozdíl od metod parametrického rozpoznávání nezávisí úspěšnost použití této skupiny metod tolik na rozporu mezi teoretickými představami o zákonitostech distribuce objektů v prostoru rysů a empirickou realitou. Všechny operace jsou podřízeny jednomu hlavnímu cíli – nalezení extrému kvalitativního funkcionálu rozhodovacího pravidla. Výsledky parametrické a uvažované metody přitom mohou být podobné. Jak je ukázáno výše, parametrické metody pro případ normálního rozdělení objektů v různých třídách se stejnými kovariančními maticemi vedou k lineárním rozhodovacím funkcím. Všimněte si také, že algoritmy pro výběr informativních prvků v lineárních diagnostických modelech lze interpretovat jako speciální verze gradientních algoritmů pro vyhledávání extrémů.

Schopnosti gradientních extrémních vyhledávacích algoritmů, zejména ve skupině lineárních rozhodovacích pravidel, byly poměrně dobře prostudovány. Konvergence těchto algoritmů byla prokázána pouze pro případ, kdy jsou rozpoznané třídy objektů zobrazeny v prostoru prvků kompaktními geometrickými strukturami. Touhu po dosažení dostatečné kvality rozhodovacího pravidla však lze často uspokojit pomocí algoritmů, které nemají striktní matematický důkaz konvergence řešení ke globálnímu extrému.

Mezi takové algoritmy patří velká skupina heuristické programovací procedury reprezentující směr evolučního modelování. Evoluční modelování je bionická metoda vypůjčená z přírody. Je založen na využití známých mechanismů evoluce s cílem nahradit proces smysluplného modelování komplexního objektu fenomenologickým modelováním jeho evoluce.

Známým představitelem evolučního modelování v rozpoznávání vzorů je metoda skupinového účetnictví argumentů (MGUA). Základem GMDH je princip samoorganizace a algoritmy GMDH reprodukují schéma hromadného výběru. V algoritmech GMDH jsou členy zobecněného polynomu syntetizovány a vybírány speciálním způsobem, který se často nazývá Kolmogorov-Gaborův polynom. Tato syntéza a selekce se provádí se vzrůstající složitostí a nelze předem předvídat, jakou konečnou podobu zobecněný polynom bude mít. Nejprve se obvykle uvažují jednoduché párové kombinace počátečních znaků, ze kterých se sestavují rovnice rozhodovacích funkcí, obvykle ne vyšších než druhého řádu. Každá rovnice je analyzována jako nezávislá rozhodovací funkce a hodnoty parametrů sestavených rovnic jsou nalezeny tak či onak pomocí trénovacího vzorku. Poté se z výsledné sady rozhodovacích funkcí vyberou ty nejlepší. Kvalita jednotlivých rozhodovacích funkcí je kontrolována na kontrolním (validačním) vzorku, kterému se někdy říká princip externího sčítání. Vybrané dílčí rozhodovací funkce jsou dále považovány za meziproměnné, které slouží jako výchozí argumenty pro podobnou syntézu nových rozhodovacích funkcí atd. Proces takové hierarchické syntézy pokračuje, dokud není dosaženo extrému kritéria kvality rozhodovací funkce, což v praxi se projevuje zhoršením této kvality při pokusu o další zvýšení řádu polynomických členů vzhledem k původním znakům.

Princip samoorganizace, který je základem GMDH, se nazývá heuristická samoorganizace, protože celý proces je založen na zavádění vnějších přídavků, vybraných heuristicky. Výsledek rozhodnutí může významně záviset na těchto heuristikách. Výsledný diagnostický model závisí na tom, jak jsou objekty rozděleny do trénovacích a testovacích vzorků, jak se určuje kritérium kvality rozpoznávání, kolik proměnných je předáno do dalšího řádku výběru atd.

Naznačené vlastnosti algoritmů GMDH jsou charakteristické i pro jiné přístupy k evolučnímu modelování. Všimněme si však ještě jednoho aspektu uvažovaných metod. To je jejich významová podstata. Pomocí metod založených na předpokladech o třídě rozhodovacích funkcí (evoluční a gradientní) je možné sestavit diagnostické modely vysoké složitosti a získat prakticky přijatelné výsledky. Dosažení praktických cílů přitom v tomto případě není doprovázeno vytěžováním nových poznatků o povaze rozpoznaných předmětů. Možnost extrahování těchto poznatků, zejména poznatků o mechanismech interakce atributů (vlastností), je zde zásadně omezena danou strukturou takové interakce, zafixovanou ve zvolené podobě rozhodovacích funkcí. Po sestavení konkrétního diagnostického modelu lze tedy nejvíce říci, že vypíšeme seznam kombinací prvků a prvků samotných zahrnutých ve výsledném modelu. Ale význam kombinací, které odrážejí povahu a strukturu rozložení studovaných objektů, zůstává v rámci tohoto přístupu často neodhalen.

Booleovské metody. Logické metody rozpoznávání vzorů jsou založeny na aparátu logické algebry a umožňují pracovat s informacemi obsaženými nejen v jednotlivých příznacích, ale i v kombinacích hodnot příznaků. V těchto metodách jsou hodnoty jakéhokoli atributu považovány za elementární události.

Ve velmi obecný pohled logické metody lze charakterizovat jako typ hledání prostřednictvím cvičného vzorku logických vzorců a utváření nějakého systému logických rozhodovacích pravidel (například ve formě konjunkcí elementárních událostí), z nichž každé má svou váhu. Skupina logických metod je různorodá a zahrnuje metody různé složitosti a hloubky analýzy. Pro dichotomické (booleovské) vlastnosti jsou oblíbené tzv. stromové klasifikátory, metoda slepého testu, algoritmus „Bark“ a další. Složitější metody jsou založeny na formalizaci induktivních metod D. S. Milla. Formalizace se provádí konstrukcí kvazi-axiomatické teorie a je založena na multi-tříděné mnohohodnotové logice s kvantifikátory nad n-ticemi proměnné délky.

Algoritmus „Kora“, stejně jako jiné logické metody rozpoznávání vzorů, je poměrně náročný na práci, protože při výběru konjunkcí je vyžadováno úplné vyhledávání. Při použití logických metod jsou proto kladeny vysoké nároky na efektivní organizaci výpočetního procesu a tyto metody fungují dobře s relativně malými rozměry prostoru rysů a pouze na výkonných počítačích.

Lingvistické (syntaktické nebo strukturální) metody. Lingvistické metody rozpoznávání vzorů jsou založeny na použití speciálních gramatik generujících jazyky, s jejichž pomocí lze popsat sadu vlastností rozpoznaných objektů. Gramatika odkazuje na pravidla pro vytváření objektů z těchto neodvozených prvků.

Pokud je popis obrázků proveden pomocí nederivativních prvků (subobrazů) a jejich vztahů, pak se k budování systémů automatického rozpoznávání používá lingvistický nebo syntaktický přístup využívající princip obecnosti vlastností. Obraz lze popsat pomocí hierarchické struktury dílčích obrazů, podobné syntaktické struktuře jazyka. Tato okolnost umožňuje aplikovat teorii formálních jazyků při řešení problémů s rozpoznáváním obrazu. Předpokládá se, že gramatika obrázků obsahuje konečné množiny prvků nazývaných proměnné, nederivativní prvky a substituční pravidla. Povaha substitučních pravidel určuje typ gramatiky. Mezi nejstudovanější gramatiky patří regulární, bezkontextové a gramatiky přímých složek. Klíčovými body tohoto přístupu je výběr nederivativních prvků obrazu, kombinace těchto prvků a vztahů spojujících je do obrazových gramatik a konečně implementace procesů analýzy a rozpoznávání ve vhodném jazyce. Tento přístup je užitečný zejména při práci s obrázky, které buď nelze popsat numerickým měřením, nebo jsou tak složité, že nelze identifikovat jejich lokální rysy a je třeba se obrátit na globální vlastnosti objektů.

Například E.A. Butakov, V.I. Ostrovský, I.L. Fadeev navrhuje následující strukturu systému pro zpracování obrazu (obr. 3) s použitím lingvistického přístupu, kde každý z funkčních bloků je softwarový (mikroprogramový) komplex (modul), který implementuje odpovídající funkce.

Obrázek 3. Blokové schéma rozpoznávacího zařízení

Pokusy aplikovat metody matematické lingvistiky na problém analýzy obrazu vedou k potřebě řešit řadu problémů spojených s mapováním dvourozměrné struktury obrazu na jednorozměrné řetězce formálního jazyka.

Extenzivní metody

V metodách této skupiny, na rozdíl od intenzionálního směru, je každému studovanému objektu ve větší či menší míře dán nezávislý diagnostická hodnota. Ve svém jádru jsou tyto metody blízké klinickému přístupu, který nepovažuje lidi za řetězec objektů seřazených podle toho či onoho ukazatele, ale za ucelené systémy, z nichž každý je individuální a má zvláštní diagnostickou hodnotu. Takový pečlivý přístup k objektům výzkumu neumožňuje vyloučit nebo ztratit informace o každém jednotlivém objektu, k čemuž dochází při použití metod intenzionálního směru, které objekty využívají pouze k detekci a zaznamenání vzorců chování jejich atributů.

Hlavní operace při rozpoznávání vzorů pomocí diskutovaných metod jsou operace určování podobností a rozdílů objektů. Objekty ve stanovené skupině metod hrají roli diagnostických precedentů. Navíc v závislosti na podmínkách konkrétního úkolu se může role jednotlivého precedentu lišit v nejširších mezích: od hlavního a určujícího až po velmi nepřímou účast v procesu uznávání. Na druhé straně mohou podmínky problému vyžadovat účast různého počtu diagnostických precedentů pro úspěšné řešení: od jednoho v každé uznané třídě až po plnou velikost vzorku, stejně jako různé způsoby výpočet míry podobnosti a rozdílu mezi objekty. Tyto požadavky vysvětlují další rozdělení rozšiřujících metod do podtříd:

    způsob porovnání s prototypem;

    metoda k-nejbližších sousedů;

    kolektivy rozhodovacích pravidel.

Metoda srovnání s prototypem. Toto je nejjednodušší metoda extenzního rozpoznávání. Používá se například, když jsou rozpoznané třídy zobrazeny v prostoru prvků pomocí kompaktních geometrických seskupení. V tomto případě je obvykle jako prototypový bod vybrán střed geometrického seskupení třídy (nebo objekt nejblíže středu).

Pro klasifikaci neznámého objektu je nalezen jeho nejbližší prototyp a objekt patří do stejné třídy jako tento prototyp. Je zřejmé, že touto metodou nejsou generovány žádné zobecněné obrázky tříd.

Jako měřítko blízkosti lze použít různé typy vzdáleností. Často se pro dichotomické rysy používá Hammingova vzdálenost, která se v tomto případě rovná druhé mocnině euklidovské vzdálenosti. V tomto případě je rozhodovací pravidlo pro klasifikaci objektů ekvivalentní lineární rozhodovací funkci.

Tuto skutečnost je třeba zvláště poznamenat. Jasně demonstruje souvislost mezi prototypovou a atributovou reprezentací informací o struktuře dat. Pomocí výše uvedeného znázornění lze například považovat jakoukoli tradiční měřící stupnici, která je lineární funkcí hodnot dichotomických charakteristik, za hypotetický diagnostický prototyp. Pokud nám analýza prostorové struktury rozpoznaných tříd umožní vyvodit závěr o jejich geometrické kompaktnosti, pak stačí každou z těchto tříd nahradit jedním prototypem, který je vlastně ekvivalentem lineárního diagnostického modelu.

V praxi je samozřejmě situace často odlišná od popsaného idealizovaného příkladu. Výzkumník, který má v úmyslu aplikovat rozpoznávací metodu založenou na srovnání s prototypovými diagnostickými třídami, čelí obtížným problémům. Jedná se v prvé řadě o volbu míry přiblížení (metriky), která může výrazně změnit prostorovou konfiguraci rozložení objektů. A za druhé, nezávislým problémem je analýza vícerozměrných struktur experimentálních dat. Oba tyto problémy jsou pro výzkumníka zvláště akutní v podmínkách vysoké dimenzionality prostoru rysů, charakteristických pro skutečné problémy.

Metoda k-nejbližších sousedů. Metoda k-nejbližších sousedů pro řešení problémů diskriminační analýzy byla poprvé navržena již v roce 1952. Je to následovně.

Při klasifikaci neznámého objektu se zjistí daný počet (k) geometricky nejbližších v prostoru znaků jiných objektů (nejbližších sousedů) s již známou příslušností k rozpoznaným třídám. Rozhodnutí o přiřazení neznámého objektu do určité diagnostické třídy se provádí analýzou informací o této známé příslušnosti jeho nejbližších sousedů, například pomocí jednoduchého sčítání hlasů.

Zpočátku byla metoda k-nejbližších sousedů považována za neparametrickou metodu pro odhad poměru pravděpodobnosti. Pro tuto metodu byly získány teoretické odhady její účinnosti ve srovnání s optimálním bayesovským klasifikátorem. Bylo prokázáno, že pravděpodobnosti asymptotických chyb pro metodu k-nejbližších sousedů přesahují chyby Bayesova pravidla maximálně dvakrát.

Jak bylo uvedeno výše, v reálných problémech je často nutné pracovat s objekty, které jsou popsány velkým množstvím kvalitativních (dichotomických) znaků. V tomto případě je rozměr prostoru rysů úměrný objemu studovaného vzorku nebo jej přesahuje. V takových podmínkách je vhodné interpretovat každý objekt trénovacího vzorku jako samostatný lineární klasifikátor. Pak ta či ona diagnostická třída není reprezentována jedním prototypem, ale sadou lineárních klasifikátorů. Kombinovaná interakce lineárních klasifikátorů má nakonec za následek po částech lineární povrch oddělující rozpoznané třídy v prostoru prvků. Typ dělící plochy, skládající se z kusů nadrovin, může být různý a závisí na vzájemné poloze klasifikovaných agregátů.

Lze také použít jiný výklad klasifikačních mechanismů pomocí pravidla k-nejbližších sousedů. Je založen na myšlence existence nějakých latentních proměnných, abstraktních nebo souvisejících nějakou transformací s původním prostorem rysů. Pokud jsou v prostoru latentních proměnných párové vzdálenosti mezi objekty stejné jako v prostoru původních prvků a počet těchto proměnných je výrazně menší než počet objektů, pak interpretace metody k-nejbližších sousedů může být uvažován z hlediska porovnávání neparametrických odhadů podmíněných hustot rozdělení pravděpodobnosti. Zde prezentovaný pohled na latentní proměnné je svou povahou blízký pohledu na skutečnou dimenzionalitu a dalším pohledům používaným v různých technikách snižování dimenzionality.

Při použití metody k-nejbližších sousedů pro rozpoznávání vzorů musí výzkumník vyřešit obtížný problém výběru metriky pro určení blízkosti diagnostikovaných objektů. Tento problém v podmínkách vysoké dimenzionality prostoru příznaků se extrémně zhoršuje v důsledku dostatečné složitosti této metody, která se stává významnou i pro vysoce výkonné počítače. Proto je zde, stejně jako u metody srovnávání s prototypem, nutné řešit kreativní problém analýzy vícerozměrné struktury experimentálních dat, aby se minimalizoval počet objektů reprezentujících diagnostické třídy.

Algoritmy pro výpočet hodnocení (hlasování). Principem fungování algoritmů pro výpočet hodnocení (ABO) je vypočítat prioritu (skóre podobnosti) charakterizující „blízkost“ rozpoznaných a referenčních objektů podle systému souborů vlastností, což je systém podmnožin daného souboru vlastností. .

Na rozdíl od všech dříve diskutovaných metod pracují algoritmy pro výpočet odhadů s popisy objektů zásadně novým způsobem. Pro tyto algoritmy existují objekty současně ve velmi odlišných podprostorech prostoru prvků. Třída ABO dovádí myšlenku použití funkcí k logickému závěru: protože není vždy známo, které kombinace vlastností jsou nejinformativnější, pak se v ABO míra podobnosti objektů vypočítá porovnáním všech možných nebo konkrétních kombinací funkce zahrnuté v popisech objektů.

Kolektivy rozhodovacích pravidel. Rozhodovací pravidlo používá dvouúrovňové schéma rozpoznávání. Na první úrovni fungují soukromé rozpoznávací algoritmy, jejichž výsledky jsou na druhé úrovni kombinovány v bloku syntézy. Nejběžnější metody takového sjednocení jsou založeny na identifikaci oblastí kompetence konkrétního algoritmu. Nejjednodušší způsob hledání oblastí kompetence spočívá v apriorním rozdělení prostoru atributů na základě odborných úvah konkrétní vědy (např. stratifikace vzorku podle určitého atributu). Poté je pro každou z vybraných oblastí vytvořen její vlastní rozpoznávací algoritmus. Další metoda je založena na použití formální analýzy k určení lokálních oblastí prostoru rysů jako sousedství rozpoznaných objektů, u kterých byla prokázána úspěšnost jakéhokoli konkrétního rozpoznávacího algoritmu.

Nejobecnější přístup ke konstrukci bloku syntézy považuje výsledné indikátory konkrétních algoritmů za výchozí charakteristiky pro konstrukci nového zobecněného rozhodovacího pravidla. V tomto případě lze použít všechny výše uvedené způsoby intenzionálních a prodlužovacích směrů při rozpoznávání vzorů. Efektivní pro řešení problému tvorby množiny rozhodovacích pravidel jsou logické algoritmy typu „Kora“ a algoritmy pro výpočet odhadů (ABO), které tvoří základ tzv. algebraického přístupu, který poskytuje studium a konstruktivní popis rozpoznávací algoritmy, do jejichž rámce zapadají všechny existující typy algoritmů.

Metody neuronových sítí

Metody neuronových sítí jsou metody založené na využití různých typů neuronových sítí (NN). Hlavní oblasti použití různých neuronových sítí pro rozpoznávání vzorů a obrázků:

    aplikace pro extrakci klíčových charakteristik nebo vlastností daných obrázků,

    klasifikace samotných obrázků nebo charakteristik z nich již extrahovaných (v prvním případě k extrakci klíčových charakteristik dochází implicitně v rámci sítě),

    řešení optimalizačních problémů.

Vícevrstvé neuronové sítě. Architektura vícevrstvé neuronové sítě (MNN) se skládá ze sekvenčně propojených vrstev, kde neuron každé vrstvy je svými vstupy spojen se všemi neurony předchozí vrstvy a výstupy další vrstvy.

Nejjednodušší aplikací jednovrstvé neuronové sítě (nazývané autoasociativní paměť) je trénovat síť k rekonstrukci přiváděných obrázků. Zavedením testovacího obrázku jako vstupu a výpočtem kvality rekonstruovaného obrázku můžete vyhodnotit, jak dobře síť rozpoznala vstupní obrázek. Pozitivní vlastnosti Tato metoda spočívá v tom, že síť dokáže obnovit zkreslený a zašuměný obraz, ale není vhodná pro vážnější účely.

MNN se také používá pro přímou klasifikaci obrazu - jako vstup je dodáván buď samotný obraz v nějaké formě nebo soubor dříve extrahovaných klíčových charakteristik obrazu, na výstupu neuron s maximální aktivitou indikuje příslušnost k rozpoznané třídě (obr. 4). Pokud je tato aktivita pod určitou hranicí, má se za to, že předložený obrázek nepatří do žádné ze známých tříd. Proces učení stanoví shodu obrázků dodávaných na vstupu s příslušností k určité třídě. Tomu se říká řízené učení. Tento přístup je vhodný pro úlohy řízení přístupu malé skupiny lidí. Tento přístup zajišťuje, že síť přímo porovnává samotné obrázky, ale s nárůstem počtu tříd se exponenciálně prodlužuje doba školení a provozu sítě. Úkoly, jako je nalezení podobné osoby ve velké databázi, proto vyžadují extrahování kompaktní sady klíčových charakteristik, na kterých bude založeno vyhledávání.

Je popsán přístup ke klasifikaci pomocí frekvenčních charakteristik celého obrazu. Byla použita jednovrstvá neuronová síť založená na vícehodnotových neuronech.

Použití neuronové sítě pro klasifikaci obrazu se ukáže, když síťový vstup obdrží výsledky rozkladu obrazu pomocí metody hlavních komponent.

V klasickém MNN jsou mezivrstvová neuronová spojení plně propojena a obraz je reprezentován jako jednorozměrný vektor, ačkoli je dvourozměrný. Architektura konvoluční neuronové sítě má za cíl tyto nedostatky překonat. Využívala lokální receptorová pole (poskytují lokální dvourozměrnou konektivitu neuronů), sdílené váhy (poskytují detekci určitých znaků kdekoli na snímku) a hierarchickou organizaci s prostorovým dílčím vzorkováním. Konvoluční neuronová síť (CNN) poskytuje částečnou odolnost vůči změnám měřítka, posunům, rotacím a deformacím.

MNN se také používají k detekci objektů určitého typu. Kromě toho, že každý trénovaný MNN může do určité míry určit, zda obrázky patří do „jejich“ tříd, může být speciálně trénován, aby spolehlivě detekoval určité třídy. V tomto případě budou výstupní třídy třídy, které patří a nepatří do daného typu obrázku. Detektor neuronové sítě byl použit pro detekci obrazu obličeje ve vstupním obrazu. Obraz byl naskenován oknem 20x20 pixelů, které bylo přivedeno na vstup sítě, která rozhoduje o tom, zda daná oblast patří do třídy obličejů. Školení bylo prováděno s použitím pozitivních příkladů (různé obrázky tváří) i negativních příkladů (obrázky, které nejsou tvářemi). Pro zvýšení spolehlivosti detekce byl použit tým neuronových sítí natrénovaný s různými počátečními váhami, v důsledku čehož neuronové sítě různě chybovaly a konečné rozhodnutí padlo hlasováním celého týmu.

Obrázek 5. Hlavní komponenty (vlastní tváře) a rozklad obrazu na hlavní komponenty

Neuronová síť se také používá k extrakci klíčových charakteristik obrazu, které jsou následně použity pro následnou klasifikaci. V , je ukázán způsob implementace metody analýzy hlavních komponent neuronové sítě. Podstatou metody analýzy hlavních komponent je získat maximálně zdobené koeficienty charakterizující vstupní obrazy. Tyto koeficienty se nazývají hlavní komponenty a používají se pro statistickou kompresi obrazu, ve které se k reprezentaci celého obrazu používá malý počet koeficientů. Neuronová síť s jednou skrytou vrstvou obsahující N neuronů (která je mnohem menší než rozměr obrazu), natrénovaná pomocí metody zpětného šíření k obnovení výstupního obrazu přiváděného na vstup, generuje koeficienty prvních N hlavních komponent na výstupu. skrytých neuronů, které se používají pro srovnání. Obvykle se používá 10 až 200 hlavních komponent. S rostoucím počtem komponenty se její reprezentativnost velmi snižuje a nemá smysl používat komponenty s větším počtem. Při použití nelineárních aktivačních funkcí neurálních prvků je možný nelineární rozklad na hlavní složky. Nelinearita umožňuje přesněji odrážet variace ve vstupních datech. Aplikací analýzy hlavních komponent na dekompozici obrazů obličeje získáme hlavní komponenty, zvané eigenfaces, které mají také užitečnou vlastnost – jsou zde komponenty, které odrážejí především takové základní charakteristiky obličeje, jako je pohlaví, rasa, emoce. Po rekonstrukci mají součásti vzhled podobný obličeji, přičemž první odráží nejobecnější tvar obličeje, druhý představuje různé malé rozdíly mezi obličeji (obr. 5). Tato metoda je vhodná pro vyhledávání podobných obrázků obličejů ve velkých databázích. Je také ukázána možnost dalšího zmenšení rozměrů hlavních komponent pomocí NN. Posouzením kvality rekonstrukce vstupního obrázku můžete velmi přesně určit jeho příslušnost ke třídě tváří.

Neuronové sítě vysokého řádu. Neuronové sítě vysokého řádu (HANN) se liší od MNN tím, že mají pouze jednu vrstvu, ale vstupy neuronů také přijímají členy vyššího řádu, které jsou součinem dvou nebo více složek vstupního vektoru. Takové sítě mohou také tvořit složité dělicí plochy.

Hopfieldovy neuronové sítě. Hopfield NN (HNS) je jednovrstvý a plně propojený (neexistují žádné spoje mezi neurony na sobě), jeho výstupy jsou spojeny se vstupy. NSC je na rozdíl od MNS relaxace – tzn. je nastaven do výchozího stavu, pracuje, dokud nedosáhne stabilního stavu, což bude jeho výstupní hodnota. Pro hledání globálního minima ve vztahu k optimalizačním problémům se používají stochastické modifikace NSC.

Použití NSH jako asociativní paměti umožňuje přesně obnovit snímky, pro které je síť trénována, když je na vstup přiveden zkreslený obraz. V tomto případě si síť „pamatuje“ nejbližší (ve smyslu lokální minimální energie) obraz, a tak jej rozpozná. Takové fungování může být také reprezentováno jako sekvenční aplikace autoasociativní paměti popsané výše. Na rozdíl od auto-asociativní paměti, NSC ideálně přesně obnoví obraz. Abyste zabránili minimálnímu rušení a zvýšili kapacitu sítě, použijte různé metody.

Samoorganizující se Kohonenovy neuronové sítě. Samoorganizující se Kohonenovy neuronové sítě (KONN) poskytují topologické uspořádání prostoru vstupního obrazu. Umožňují topologicky spojité mapování n-rozměrného vstupního prostoru na m-rozměrný výstupní prostor, mn. Vstupní obraz je promítán na nějaké místo v síti, zakódované jako poloha aktivovaného uzlu. Na rozdíl od většiny ostatních metod klasifikace a shlukování zachovává topologické uspořádání tříd výstupní podobnost ve vstupních vzorcích, což je užitečné zejména při klasifikaci dat, která mají velký počet tříd.

Cognitron. Architektura Cognitronu je podobná struktuře zrakové kůry, má hierarchickou vícevrstvou organizaci, ve které jsou neurony mezi vrstvami propojeny pouze lokálně. Učí se soutěžním učením (bez učitele). Každá vrstva mozku implementuje různé úrovně zobecnění; vstupní vrstva je citlivá na jednoduché vzory, jako jsou čáry, a jejich orientaci v určitých oblastech vizuální domény, zatímco reakce ostatních vrstev je složitější, abstraktnější a nezávislá na poloze vzoru. Podobné funkce jsou implementovány v kognitronu modelováním organizace zrakové kůry.

Neocognitron je dalším vývojem myšlenky kognitronu a přesněji odráží strukturu vizuálního systému, umožňuje rozpoznávat obrázky bez ohledu na jejich transformace, rotace, deformace a změny v měřítku.

Cognitron je výkonný nástroj pro rozpoznávání obrazu, ale vyžaduje vysoké výpočetní náklady, které jsou v současnosti nedosažitelné.

Uvažované metody neuronové sítě poskytují rychlé a spolehlivé rozpoznávání obrazu, ale při použití těchto metod nastávají problémy s rozpoznáváním trojrozměrných objektů. Tento přístup má však mnoho výhod.

      Závěr

V současné době existuje poměrně velké množství systémů automatického rozpoznávání vzorů pro různé aplikované úlohy.

Rozpoznávání vzorů formálními metodami jako základní vědecký směr je nevyčerpatelná.

Matematické metody zpracování obrazu mají širokou škálu aplikací: věda, technika, lékařství, sociální sféra. V budoucnu se role rozpoznávání vzorů v lidském životě ještě zvýší.

Metody neuronových sítí poskytují rychlé a spolehlivé rozpoznávání obrazu. Tento přístup má mnoho výhod a je jedním z nejslibnějších.

Literatura

    D.V. Brilyuk, V.V. Starovoitov. Metody neuronových sítí pro rozpoznávání obrazu // /

    Kuzin L.T. Základy kybernetiky: Základy kybernetických modelů. T.2. - M.: Energie, 1979. - 584 s.

    Peregudov F.I., Tarasenko F.P. Úvod do systémové analýzy: Učebnice. – M.: Vyšší škola, 1997. - 389 s.

    Temnikov F.E., Afonin V.A., Dmitriev V.I. Teoretické základy informačních technologií. - M.: Energie, 1979. - 511 s.

    Tu J., Gonzalez R. Principy rozpoznávání vzorů. /Přel. z angličtiny - M.: Mir, 1978. - 410 s.

    Winston P. Umělá inteligence. /Přel. z angličtiny - M.: Mir, 1980. - 520 s.

    Fu K. Strukturální metody v rozpoznávání vzorů: Přeloženo z angličtiny. - M.: Mir, 1977. - 320 s.

    Tsypkin Ya.Z. Základy informační teorie identifikace. - M.: Nauka, 1984. - 520 s.

    Pospelov G.S. Umělá inteligence je základem nových informačních technologií. - M.: Nauka, 1988. - 280 s.

    Yu. Lifshits, Statistické metody rozpoznávání vzorů ///modern/07modernnote.pdf

    Bohr N. Atomová fyzika a lidské poznání. /Přeloženo z angličtiny - M.: Mir, 1961. - 151 s.

    Butakov E.A., Ostrovsky V.I., Fadeev I.L. Zpracování obrazu na počítači.1987.-236s.

    Duda R., Hart P. Rozpoznávání vzorů a analýza scény. /Přeloženo z angličtiny - M.: Mir, 1978. - 510 s.

    Vévoda V.A. Počítačová psychodiagnostika. - Petrohrad: Bratrstvo, 1994. - 365 s.

    Aizenberg I. N., Aizenberg N. N. a Krivosheev G. A. Vícehodnotové a univerzální binární neurony: Algoritmy učení, aplikace pro zpracování a rozpoznávání obrazu. Poznámky k přednáškám z umělé inteligence – strojové učení a dolování dat v rozpoznávání vzorů, 1999, pp. 21-35.

    Ranganath S. a Arun K. Rozpoznávání obličeje pomocí transformačních funkcí a neuronových sítí. Rozpoznávání vzorů 1997, sv. 30, str. 1615-1622.

    Golovko V.A. Neurointeligence: Teorie a aplikace. Kniha 1. Organizace a trénování neuronových sítí s přímým a zpětná vazba– Brest: BPI, 1999, - 260 s.

    Vetter T. a Poggio T. Třídy lineárních objektů a syntéza obrazu z jednoho příkladu obrazu. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, sv. 19, str. 733-742.

    Golovko V.A. Neurointeligence: Teorie a aplikace. Kniha 2. Samoorganizace, odolnost proti chybám a aplikace neuronových sítí - Brest: BPI, 1999, - 228 s.

    Lawrence S., Giles C. L., Tsoi A. C. and Back A. D. Face Recognition: A Convolutional Neural Network Approach. IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition, str. 1-24.

    Wasserman F. Neurocomputer technology: Theory and practice, 1992 – 184 s.

    Rowley, H. A., Baluja, S. a Kanade, T. Neural Network-Based Face Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, sv. 20, str. 23-37.

    Valentin D., Abdi H., O"Toole A.J. a Cottrell G.W. Connectionistické modely zpracování tváře: průzkum. IN: Rozpoznávání vzoru 1994, sv. 27, s. 1209-1230.

    Dokument

    Vytvářejí algoritmy uznánísnímky. Metodyuznánísnímky Jak je uvedeno výše... realita není existuje„ekosystémy obecně“ a existovat pouze individuální... závěry z tohoto podrobného Posouzenímetodyuznání představili jsme v...

  1. Přehled metod identifikace osob na základě snímků obličeje s přihlédnutím k rysům vizuálního rozpoznávání

    Posouzení

    ... uznání osobou málo kontrastních objektů, vč. osob Dáno Posouzení běžný metody ... Existuje celá řada metody ... cesta, jako výsledek výzkumu, platforma pro rozvoj metodauznání ...

  2. Pojmenováno po Glazkové Valentině Vladimirovně VÝZKUM A VÝVOJ METOD PRO KONSTRUKCI SOFTWAROVÝCH NÁSTROJŮ PRO KLASIFIKACI VÍCETÉMOVÝCH HYPERTEXTOVÝCH DOKUMENTŮ Specialita 05

    Abstrakt disertační práce

    Hypertextové dokumenty. Kapitola poskytuje Posouzeníexistujícímetodyřešení zvažovaného problému, popis... odříznutím nejméně relevantních tříd // Matematické metodyuznánísnímky: 13. celoruská konference. Leningradská oblast...

  3. Snímek 0 Přehled bioinformatických úkolů souvisejících s analýzou a zpracováním genetických textů

    Přednáška

    DNA a proteinové sekvence. Posouzení bioinformatické úkoly jako úkoly... signály vyžadují použití modern metodyuznánísnímky, statistické přístupy a... s nízkou hustotou genů. Existující programy pro predikci genů nejsou...

Metody automatického rozpoznávání obrazu a jejich implementace v systémech optického rozpoznávání znaků (OCR systémy) jsou jednou z nejpokročilejších technologií umělé inteligence. Ruští vědci zaujímají přední místa ve světě ve vývoji této technologie.

OCR systémem se rozumí systém pro automatické rozpoznávání vzorů pomocí speciálních programů pro obrázky tištěných nebo ručně psaných textových znaků (například zadaných do počítače pomocí skeneru) a jejich převod do formátu vhodného pro zpracování textovými procesory, textovými editory , atd.

Zkratka OCR někdy znamená Optical Character Reader – zařízení pro optické rozpoznávání znaků nebo automatické čtení textu. V současné době taková zařízení v průmyslovém využití zpracují až 100 tisíc dokumentů denně.

Průmyslové využití zahrnuje vkládání dokumentů dobré a střední kvality - jedná se o zpracování sčítacích tiskopisů, daňových přiznání atp.

Uveďme rysy předmětné oblasti, které jsou významné z pohledu systémů OCR:

  • různé druhy písma a velikosti symbolů;
  • deformace v obrazech symbolů (lomy v obrazech symbolů);
  • zkreslení během skenování;
  • cizí inkluze v obrazech;
  • kombinace textových fragmentů v různých jazycích;
  • širokou škálu tříd znaků, které lze rozpoznat pouze s dalšími kontextovými informacemi.

Automatické čtení tištěných a ručně psaných textů je speciálním případem automatického vizuálního vnímání složitých obrázků. Četné studie ukázaly, že k úplnému vyřešení tohoto problému je nezbytné intelektuální uznání, tedy „rozpoznání s porozuměním“.

Všechny OCR systémy jsou založeny na třech principech.

  • 1. Princip integrity obrazu. Zkoumaný objekt má vždy významné části, mezi kterými existují vztahy. Výsledky lokálních operací s částmi obrazu jsou interpretovány pouze společně v procesu interpretace integrálních fragmentů a celého obrazu jako celku.
  • 2. Princip účelnosti. Rozpoznávání je účelový proces vytváření a testování hypotéz (zjištění toho, co se od objektu očekává).
  • 3. Princip adaptability. Systém uznávání musí být schopen samoučení.

Přední ruské OCR systémy: FineReader; Rukopis FineReader; FormReader; CunieForm (kognitivní technologie), kognitivní formy (kognitivní technologie) .

Systém FineReader vyrábí společnost ABBYY, která byla založena v roce 1989. Vývoj společnosti ABBYY probíhá ve dvou směrech: počítačové vidění a aplikovaná lingvistika. Strategickým směrem výzkumu a vývoje je přirozený jazykový aspekt technologií v oblasti počítačového vidění, umělé inteligence a aplikované lingvistiky.

CuneiForm GOLD pro Windows je první samoučící se inteligentní OCR systém na světě, který využívá nejnovější technologii adaptivního rozpoznávání textu a podporuje více jazyků. Pro každý jazyk je dodáván slovník pro kontrolu kontextu a zlepšení kvality výsledků rozpoznávání. Rozpozná jakýkoli tisk, strojopisná písma a písma přijatá z tiskáren, s výjimkou dekorativních a ručně psaných, a také velmi nekvalitní texty.

Charakteristika systémů rozpoznávání vzorů. Mezi technologiemi OCPL mají velký význam speciální technologie pro řešení určitých tříd problémů automatického rozpoznávání vzorů:

  • vyhledávání lidí podle fotografií;
  • vyhledávání ložisek nerostů a předpověď počasí na základě leteckého snímkování a satelitních snímků v různých rozsazích světelného záření;
  • vypracování geografických map na základě výchozích informací použitých v předchozím úkolu;
  • analýza otisků prstů a vzorů duhovky ve forenzních, bezpečnostních a lékařských systémech.

Ve fázi přípravy a zpracování informací, zejména při automatizaci podniku, automatizaci účetnictví, vzniká úkol zadávat do PC velké množství textových a grafických informací. Hlavní zařízení pro zadávání grafických informací jsou: skener, faxmodem a méně často digitální fotoaparát. Kromě toho můžete pomocí programů pro optické rozpoznávání textu také zadávat (digitalizovat) textové informace do počítače. Moderní softwarové a hardwarové systémy umožňují automatizovat vkládání velkého množství informací do počítače, například pomocí síťového skeneru a paralelního rozpoznávání textu na několika počítačích současně.

Většina programů OCR pracuje s rastrovými obrázky, které jsou přijímány přes faxmodem, skener, digitální fotoaparát nebo jiné zařízení. V první fázi musí systém OSL rozdělit stránku na bloky textu na základě vlastností zarovnání vpravo a vlevo a přítomnosti několika sloupců. Rozpoznaný blok je pak rozdělen na řádky. Přes zdánlivou jednoduchost to není tak samozřejmý úkol, protože v praxi je deformace obrazu stránky nebo jejích fragmentů při složení nevyhnutelná. I mírné naklonění způsobí, že levý okraj jednoho řádku je níže než pravý okraj dalšího, zvláště při malých řádcích. V důsledku toho vzniká problém určit linii, ke které ten či onen obrazový fragment patří. Například na dopisy

Řádky jsou pak rozděleny do souvislých obrazových oblastí, které odpovídají jednotlivým písmenům; Rozpoznávací algoritmus předpokládá, že tyto oblasti odpovídají znakům, a poté je vybrán každý znak, v důsledku čehož je stránka rekonstruována na textové znaky a zpravidla v daném formátu. Systémy OBL mohou dosáhnout nejlepší přesnosti rozpoznávání – více než 99,9 % pro čisté obrázky složené z běžných písem. Na první pohled se tato přesnost rozpoznávání jeví jako ideální, ale chybovost je stále deprimující, protože pokud je na stránce přibližně 1500 znaků, pak i při úspěšnosti rozpoznání 99,9 % je jedna až dvě chyby na stránku. V takových případech byste měli použít metodu kontroly slovníku, tj. pokud slovo není ve slovníku systému, pokusí se najít podobné podle zvláštních pravidel. To však stále neumožňuje opravit 100% chyb a vyžaduje lidskou kontrolu výsledků.

Nalezen v reálný život texty mají obvykle k dokonalosti daleko a procento chyb při rozpoznávání „nečistých“ textů je často nepřijatelně vysoké. Špinavé obrázky jsou nejzjevnějším problémem, protože i malé skvrny mohou zakrýt definující části postavy nebo jednu přeměnit v jinou. Dalším problémem je nepřesné skenování způsobené „lidským faktorem“, protože operátor sedící u skeneru prostě není schopen každou naskenovanou stránku vyhladit a přesně zarovnat s okraji skeneru. Pokud byl dokument zkopírován, často dochází k přerušení a sloučení znaků. Kterýkoli z těchto efektů může způsobit chybu systému, protože některé systémy OS předpokládají, že souvislá oblast obrazu musí být jeden znak. Přesahující nebo zkosená stránka vytváří mírně zkreslené obrázky znaků, které mohou být zmateny operačním systémem.

Systémový software OS obvykle pracuje s velkým bitmapovým obrázkem stránky přijaté ze skeneru. Standardní rozlišení obrázků je dosaženo skenováním při 9600 ppi. Obraz listu A4 v tomto rozlišení zabírá asi 1 MB paměti.

Hlavním účelem OCR systémů je analyzovat rastrové informace (naskenovaný symbol) a přiřadit odpovídající symbol fragmentu obrázku. Po dokončení procesu rozpoznávání musí být systémy OCR schopny zachovat formátování zdrojových dokumentů, přiřadit atribut odstavce na správné místo, uložit tabulky, grafiku atd. Moderní rozpoznávací programy podporují všechny známé textové, grafické a tabulkové formáty. jako HTML a PDF.

Práce se systémy OCR by zpravidla neměla způsobovat žádné zvláštní potíže. Většina těchto systémů má jednoduchý automatický režim „skenování a čtení“ a podporuje také režim pro rozpoznávání obrázků ze souborů. Pro dosažení co nejlepších výsledků pro daný systém je však vhodné (a často povinné) jej nejprve ručně nakonfigurovat pro konkrétní typ textu, rozložení formuláře a kvalitu papíru. Nesprávně zarovnaná nebo zkosená stránka vytváří mírně zdeformované obrázky znaků, které mohou být zmateny systémem OCR.

Při práci s OCR systémem je velmi důležitý výběr rozpoznávacího jazyka a typu rozpoznávaného materiálu (psací stroj, fax, jehličková tiskárna, noviny atd.) a také intuitivní přehlednost uživatelského rozhraní. Při rozpoznávání textů, které používají několik jazyků, závisí účinnost rozpoznávání na schopnosti systému OCR tvořit skupiny jazyků. Některé systémy přitom již mají kombinace pro nejpoužívanější jazyky, jako je ruština a angličtina.

V současné době existuje obrovské množství programů, které podporují rozpoznávání textu jako jednu z možností. Lídrem v této oblasti je systém FineReader. Nejnovější verze programu (6.0) nyní obsahuje nástroje pro vývoj nových systémů založených na technologii FineReader 6.0. Řada FineReader 6.0 zahrnuje: FineReader 6.0 Professional, FineReader 6.0 Corporate Edition, FineReader Scripting Edition 6.0 a FineReader Engine 6.0. Systém FineReader 6.0 kromě toho, že zná obrovské množství formátů pro ukládání, včetně PDF, má schopnost přímo rozpoznávat soubory PDF. Nová technologie Intelligent Background Filtering umožňuje odfiltrovat informace o textuře dokumentu a šumu na pozadí obrázku: někdy se pro zvýraznění textu v dokumentu používá šedé nebo barevné pozadí. To nebrání člověku ve čtení, ale konvenční algoritmy rozpoznávání textu mají vážné potíže při práci s písmeny umístěnými na takovém pozadí. FineReader dokáže identifikovat oblasti obsahující podobný text tak, že oddělí text od pozadí dokumentu, najde body, které jsou menší než určitá velikost, a odstraní je. V tomto případě jsou obrysy písmen zachovány, takže body pozadí umístěné blízko těchto obrysů nezpůsobují interference, které by mohly zhoršit kvalitu rozpoznávání textu.

Pomocí možností moderních programů pro rozvržení návrháři často vytvářejí objekty složitého tvaru, jako je obtékání vícesloupcového textu kolem jiného než obdélníkového obrázku. Systém FineReader 6.0 podporuje rozpoznání takových objektů a jejich uložení do souborů MS Word. Nyní budou dokumenty se složitým rozložením přesně reprodukovány v tomto textovém editoru. Dokonce i tabulky jsou rozpoznávány s maximální přesností při zachování plných možností úprav.

Systém ABBYY FormReader je jedním z rozpoznávacích programů od společnosti ABBYY, založený na systému ABBYY FineReader Engine. Tento program je navržen tak, aby rozpoznával a zpracovával formuláře, které lze vyplňovat ručně. ABBYY FormReader zvládne formuláře s pevným rozložením stejně dobře jako formuláře, jejichž struktura se může měnit. Pro rozpoznání byl použit nová technologie Technologie ABBYY FlexiForm.

Přední výrobci softwaru licencovali ruské informační technologie pro použití se svými produkty. Oblíbené softwarové balíky Corel Draw (Corel Corporation), FaxLine/OCR & Business Card Wizard (Inzer Corporation) a mnoho dalších má v sobě zabudovanou knihovnu CuneiForm OCR. Tento program se stal prvním systémem OCR v Rusku, který obdržel logo kompatibilní s MS Windows.

Systém Readiris Pro 7 - odborný program rozpoznávání textu. Podle výrobců se tento OCR systém liší od analogů v nejvyšší přesnosti převodu běžných (každodenních) tištěných dokumentů, jako jsou dopisy, faxy, články z časopisů, výstřižky z novin, na objekty přístupné pro úpravy (včetně souborů PDF). Hlavní přednosti programu jsou: schopnost více či méně přesně rozpoznat obrázky komprimované „na maximum“ (s maximální ztrátou kvality) metodou formátu JPEG, podpora digitální fotoaparáty a automatická detekce orientace stránky, podpora až 92 jazyků (včetně ruštiny).

Systém OmniPage 11 je produktem společnosti ScanSoft. Omezená verze tohoto programu (OmniPage 11 Limited Edition, OmniPage Lite) je obvykle součástí nových skenerů (v Evropě a USA). Vývojáři tvrdí, že jejich program rozpoznává tištěné dokumenty s téměř 100% přesností, obnovuje jejich formátování, včetně sloupců, tabulek, pomlček (včetně dělení částí slov), nadpisů, názvů kapitol, podpisů, čísel stránek, poznámek pod čarou, odstavců, číslovaných seznamů , červené čáry, grafy a obrázky. Je možné ukládat ve formátech Microsoft Office, PDF a dalších 20, rozpoznat z PDF souborů a v tomto formátu upravovat. Systém umělé inteligence umožňuje automaticky detekovat a opravovat chyby po první ruční opravě. Nový speciálně vyvinutý softwarový modul „Dcspeckle“ umožňuje rozpoznávat dokumenty se sníženou kvalitou (faxy, kopie, kopie kopií atd.). Výhodou programu je schopnost rozpoznávat barevný text a provádět úpravy hlasem. Verze OmniPage existuje také pro počítače Macintosh.

  • Cm.: Bashmakov A. I., Bashmakov I. A. Inteligentní informační technologie.
Pokud najdete chybu, vyberte část textu a stiskněte Ctrl+Enter.