توسعه فناوری تشخیص خودکار الگو. بررسی روش های تشخیص الگوی موجود

ربات‌های مدرن مجهز به سیستم‌های بینایی می‌توانند به خوبی ببینند تا با دنیای واقعی کار کنند. آنها می توانند در مورد اینکه چه نوع اشیایی وجود دارند، چه روابطی بین خود دارند و چه گروه هایی را تشکیل می دهند، نتیجه گیری کنند.

ماهیت کار تشخیص این است که مشخص شود آیا اشیاء مورد مطالعه دارای مجموعه محدود ثابتی از ویژگی ها هستند که به آنها اجازه می دهد در یک کلاس خاص طبقه بندی شوند.

اهداف علم تشخیص الگو:

جایگزینی یک متخصص انسانی یا یک سیستم خبره پیچیده با یک سیستم ساده تر (اتوماسیون فعالیت های انسانی یا ساده سازی سیستم های پیچیده).

ساخت سیستم‌های یادگیری که می‌توانند بدون تعیین قوانین واضح تصمیم بگیرند، یعنی سیستم‌هایی که خودشان می‌توانند قواعد تصمیم‌گیری را بر اساس تعداد محدودی از نمونه‌های تصمیم‌های صحیح «نشان داده‌شده» به سیستم ترکیب کنند.

وظایف تشخیصرا می توان به صورت زیر مشخص کرد.

1. اینها وظایف اطلاعاتی متشکل از دو مرحله اصلی هستند: کاهش داده های منبع به شکلی مناسب برای شناسایی و خود شناسایی.

2. در این کارها می توانید مفهوم قیاس و تشابه اشیاء را معرفی کنید و مفهوم مجاورت اشیاء را به عنوان مبنایی برای گنجاندن یک شی در یک کلاس خاص تدوین کنید.

3. در این کارها می توانید با مجموعه ای از مثال ها عمل کنید که طبقه بندی آن ها مشخص است و در قالب توضیحات رسمی، می توان آن ها را به الگوریتم تشخیص ارائه کرد تا در طول فرآیند یادگیری با کار تطبیق دهند.

4. برای این مسائل ساختن نظریه های رسمی و به کارگیری روش های ریاضی کلاسیک دشوار است.

5. در این مشکلات، اطلاعات "بد" امکان پذیر است.

انواع وظایف تشخیص:

تخصیص شی ارائه شده به یکی از کلاس ها (آموزش با معلم)؛

طبقه بندی خودکار - تقسیم مجموعه ای از اشیا (موقعیت ها) با توجه به توصیف آنها به یک سیستم از کلاس های غیر همپوشانی.

انتخاب مجموعه ای از ویژگی های اطلاعاتی در حین تجزیه.

آوردن داده های منبع به فرمی مناسب برای تشخیص؛

تشخیص دینامیک و طبقه بندی پویا؛

مشکلات پیش بینی

تعاریف اساسی

تصویر- این یک توصیف ساختار یافته از یک شی یا پدیده است که توسط بردار ویژگی ها نشان داده می شود که هر عنصر آن مقدار عددی یکی از ویژگی های مشخص کننده این شی را نشان می دهد. به عبارت دیگر: تصویر به هر جسمی گفته می شود که مجموعه ای از ویژگی های عددی خاصی را می توان برای آن اندازه گیری کرد. مثال تصویر: حرف، تصویر، کاردیوگرام و غیره.

علامت عددی(یا فقط یک علامت). فرمول یا توصیف دیگری از یک روش برای تطبیق یک شی با یک مشخصه عددی خاص است که در چارچوب یک کار تشخیص الگوی خاص عمل می کند. برای هر شی چند مشخصه مختلف یعنی چند مشخصه عددی می توان تعریف کرد.

فضای ویژگیفضای .N-بعدی تعریف شده برای یک کار شناسایی معین، که در آن N تعداد ثابتی از ویژگی های اندازه گیری شده برای هر شی است. بردار از فضای ویژگی متناظر با هدف شناسایی یک بردار N بعدی با مولفه های (x1، x2، ...، xN) است که مقادیر ویژگی های این شی هستند.

OBJECT->Nfeatures->بردار ویژگی M بعدی

کلاس- یک ایده غیر رسمی (به عنوان یک قاعده) در مورد امکان اختصاص یک شی دلخواه از مجموعه اشیاء یک وظیفه تشخیص به گروه خاصی از اشیاء. برای اشیاء از همان کلاس، وجود "شباهت" در نظر گرفته شده است. برای یک کار تشخیص الگو می توان تعداد دلخواه کلاس های بزرگتر از 1 را تعریف کرد.تعداد کلاس ها با عدد S نشان داده می شود.

به طور کلی، مسئله تشخیص الگو از دو بخش تشکیل شده است: شناخت و آموزش.

تشخیص الگو شامل طبقه بندی گروه خاصی از اشیاء بر اساس الزامات خاص است. اشیاء متعلق به یک دسته از تصاویر دارای ویژگی های مشترک هستند. الزاماتی که یک طبقه بندی را تعریف می کند ممکن است متفاوت باشد، زیرا موقعیت های مختلف نیاز به انواع مختلف طبقه بندی دارند.

به عنوان مثال، هنگام تشخیص حروف انگلیسی، 26 کلاس تصویر تشکیل می شود. با این حال، برای تشخیص حروف انگلیسی از حروف چینی در هنگام تشخیص، تنها دو دسته از تصاویر مورد نیاز است.

ساده ترین رویکرد برای تشخیص الگو، تطبیق الگو است. در این حالت مجموعه مشخصی از تصاویر، یکی از هر دسته از تصاویر، در حافظه دستگاه ذخیره می شود. تصویر ورودی (شناخته شده) (یک کلاس ناشناخته) با استاندارد هر کلاس مقایسه می شود. طبقه بندی بر اساس یک معیار تطبیق یا معیار شباهت از پیش انتخاب شده است. به عبارت دیگر، اگر تصویر ورودی بهتر از هر استاندارد دیگری با استاندارد کلاس الگوی iام مطابقت داشته باشد، آنگاه تصویر ورودی به عنوان متعلق به کلاس الگوی i طبقه بندی می شود.

عیب این رویکرد، یعنی مقایسه با یک استاندارد، این است که در برخی موارد انتخاب استاندارد مناسب از هر دسته از تصاویر و ایجاد معیار تطبیق لازم دشوار است.

یک رویکرد پیشرفته تر این است که طبقه بندی بر اساس مجموعه خاصی از اندازه گیری های انتخابی انجام شده بر روی تصاویر ورودی است. این معیارهای انتخاب شده، که «ویژگی‌ها» نامیده می‌شوند، نسبت به تغییرات و تحریف‌هایی که معمولاً با آن‌ها مواجه می‌شوند، ثابت یا غیر حساس فرض می‌شوند و افزونگی کمی دارند.

یک مورد خاص از رویکرد دوم "اندازه گیری ویژگی" که در آن استانداردها در قالب ویژگی های اندازه گیری شده ذخیره می شوند و یک معیار طبقه بندی ویژه (مقایسه) در طبقه بندی کننده استفاده می شود.

ویژگی‌ها توسط توسعه‌دهندگان تعریف می‌شوند و باید نسبت به جهت‌گیری، اندازه و شکل اشیا تغییری نداشته باشند.

سخنرانی شماره 17.روش های تشخیص الگو

گروه های زیر از روش های تشخیص متمایز می شوند:

روش های تابع مجاورت

روش های تابع تفکیک

روش های تشخیص آماری

روش های زبانی

روش های اکتشافی

سه گروه اول روش ها بر تجزیه و تحلیل ویژگی های بیان شده به صورت اعداد یا بردارها با اجزای عددی متمرکز هستند.

گروهی از روش‌های زبان‌شناختی بر اساس تحلیل ساختار آن‌ها، که با ویژگی‌های ساختاری مربوطه و روابط بین آن‌ها توصیف می‌شود، تشخیص الگو را ارائه می‌دهند.

گروه روش‌های اکتشافی، تکنیک‌های مشخصه و رویه‌های منطقی مورد استفاده انسان را در تشخیص الگو ترکیب می‌کند.

روش های تابع مجاورت

روش های این گروه مبتنی بر استفاده از توابعی است که اندازه گیری مجاورت بین تصویر شناسایی شده و بردار را تخمین می زند. ایکس* = (ایکس* 1 ,….,x*n، و تصاویر مرجع از کلاس های مختلف، که توسط بردارها نشان داده شده اند x i = (x i 1 ,…, x i n), i= 1,…,ن، جایی که من -شماره کلاس تصویر

روش تشخیص طبق این روش شامل محاسبه فاصله بین نقطه تصویر شناسایی شده و هر یک از نقاط نشان دهنده تصویر مرجع است، یعنی. در محاسبه تمام مقادیر d i , i= 1,…,ن. تصویر متعلق به کلاسی است که برای آن مقدار d iدر بین همه کمترین اهمیت را دارد i= 1,…,ن .

تابعی که هر جفت بردار را اختصاص می دهد x i, ایکس*عدد واقعی به عنوان معیار مجاورت آنها، یعنی. تعیین فاصله بین آنها می تواند کاملاً دلخواه باشد. در ریاضیات به چنین تابعی متریک فضا می گویند. باید بدیهیات زیر را برآورده کند:

r(x، y)=r(y، x);

r(x، y) > 0 اگر ایکسنا برابر yو r(x، y)=0 اگر x=y;

r(x، y) <=r(x، z)+r(z,y)

بدیهیات فهرست شده به ویژه با توابع زیر برآورده می شوند

یک من= 1/2 , j=1,2,…n.

b i= جمع، j=1,2,…n.

ج من= حداکثر شکم ( x ix j *), j=1,2,…n.

اولین آنها هنجار اقلیدسی فضای برداری نامیده می شود. بر این اساس، فضاهایی که تابع مشخص شده به عنوان متریک در آنها استفاده می شود، فضای اقلیدسی نامیده می شود.

اغلب، اختلاف ریشه میانگین مربع در مختصات تصویر شناسایی شده به عنوان تابع مجاورت انتخاب می شود ایکس*و استاندارد x i، یعنی تابع

d i = (1/n) جمع ( x i jx j *) 2 , j=1,2,…n.

اندازه d iاز نظر هندسی به عنوان مربع فاصله بین نقاط در فضای ویژگی، مربوط به بعد فضا تفسیر می شود.

اغلب مشخص می شود که ویژگی های مختلف در تشخیص اهمیت یکسانی ندارند. به منظور در نظر گرفتن این شرایط هنگام محاسبه توابع مجاورت، تفاوت مختصات مربوط به ویژگی های مهم تر با ضرایب بزرگ و در موارد کم اهمیت - در ضرایب کوچکتر ضرب می شود.

در این مورد d i = (1/n) جمع w j (x i jx j *) 2 , j=1,2,…n,

جایی که w j- ضرایب وزنی

معرفی ضرایب وزنی معادل مقیاس بندی محورهای فضای ویژگی و بر این اساس، کشش یا فشرده سازی فضا در جهات خاص است.

تغییر شکل های مشخص شده فضای ویژگی هدف قرار دادن نقاط تصاویر مرجع را به گونه ای دنبال می کند که مطابق با قابل اطمینان ترین تشخیص در شرایط پراکندگی قابل توجهی از تصاویر هر طبقه در مجاورت نقطه تصویر مرجع باشد. .

به گروه هایی از نقاط تصویر نزدیک به یکدیگر (خوشه های تصاویر) در فضای ویژگی، خوشه و وظیفه شناسایی چنین گروه هایی را مسئله خوشه بندی می نامند.

وظیفه شناسایی خوشه ها به عنوان یک کار تشخیص الگوی بدون نظارت طبقه بندی می شود، به عنوان مثال. برای تشخیص مشکلات در غیاب نمونه ای از تشخیص صحیح.

روش های تابع تفکیک

ایده روش های این گروه ساخت توابعی است که مرزهایی را در فضای تصاویر مشخص می کند که فضا را به مناطقی مطابق با کلاس های تصاویر تقسیم می کند. ساده ترین و پرکاربردترین توابع از این نوع توابعی هستند که به صورت خطی به مقادیر ویژگی ها بستگی دارند. در فضای ویژگی، آنها با سطوح تقسیم کننده به شکل ابرصفحه مطابقت دارند. در مورد یک فضای ویژگی دو بعدی، یک خط مستقیم به عنوان یک تابع جداکننده عمل می کند.

شکل کلی تابع تصمیم خطی با فرمول ارائه شده است

د(ایکس)=w 1 ایکس 1 + w 2 ایکس 2 +…+w n x n +w n +1 = Wx+w n

جایی که ایکس- وکتور تصویر، w=(w 1 ، w 2 ,…w n) – بردار ضرایب وزنی.

در صورت تقسیم به دو کلاس ایکس 1 و ایکس 2 عملکرد متمایز د(x) به رسمیت شناختن مطابق با قاعده اجازه می دهد:

ایکسمتعلق است ایکس 1 اگر د(ایکس)>0;

ایکسمتعلق است ایکس 2 اگر د(ایکس)<0.

اگر د(ایکس)=0، پس یک مورد عدم قطعیت وجود دارد.

در صورت تقسیم به چند کلاس، چندین تابع معرفی می شوند. در این مورد، به هر دسته از تصاویر، ترکیب خاصی از علائم عملکرد تبعیض اختصاص داده می شود.

به عنوان مثال، اگر سه تابع متمایز معرفی شود، گزینه زیر برای شناسایی کلاس های تصویر امکان پذیر است:

ایکسمتعلق است ایکس 1 اگر د 1 (ایکس)>0,د 2 (ایکس)<0,د 3 (ایکس)<0;

ایکسمتعلق است ایکس 2 اگر د(ایکس)<0,د 2 (ایکس)>0,د 3 (ایکس)<0;

ایکسمتعلق است ایکس 3 اگر د(ایکس)<0,د 2 (ایکس)<0,د 3 (ایکس)>0.

فرض بر این است که برای سایر ترکیبات مقادیر د 1 (ایکس),د 2 (ایکس),د 3 (ایکس) مورد عدم قطعیت وجود دارد.

یک تغییر از روش تابع تفکیک، روش تابع تصمیم است. در آن، در صورت وجود مترفرض بر این است که کلاس ها وجود داشته باشند مترکارکرد d i(ایکسقاطع نامیده می شود، به طوری که اگر ایکسمتعلق است X i، آن d i(ایکس) > دی جی(ایکس) برای همه jنابرابر من، آن ها عملکرد تعیین کننده d i(ایکس) دارای حداکثر مقدار در بین همه توابع است دی جی(ایکس), j=1,...,n..

نمونه ای از این روش می تواند یک طبقه بندی بر اساس تخمین حداقل فاصله اقلیدسی در فضای ویژگی بین نقطه تصویر و استاندارد باشد. بیایید آن را نشان دهیم.

فاصله اقلیدسی بین بردار ویژگی تصویر شناسایی شده ایکسو بردار تصویر مرجع با فرمول || تعیین می شود x iایکس|| = 1/2 , j=1,2,…n.

بردار ایکسبه کلاس اختصاص داده خواهد شد من، که برای آن مقدار || x iایکس*|| حداقل

به جای فاصله، می توانید مربع فاصله را مقایسه کنید، یعنی.

||x iایکس|| 2 = (x iایکس)(x iایکس) t = ایکس ایکس- 2ایکس x i +x i x i

از آنجایی که ارزش ایکس ایکسبرای همه یکسان است من, تابع حداقل || x iایکس|| 2 با حداکثر تابع تصمیم منطبق خواهد شد

d i(ایکس) = 2ایکس x i -x i x i.

به این معنا که ایکسمتعلق است X i، اگر d i(ایکس) > دی جی(ایکس) برای همه jنابرابر من.

که ماشین طبقه بندی حداقل فاصله بر اساس توابع تصمیم گیری خطی است. ساختار کلی چنین ماشینی از عملکردهای تعیین کننده فرم استفاده می کند

d i (ایکس)=w i 1 ایکس 1 + w i 2 ایکس 2 +…+w در x n +پیروزی +1

می توان آن را به صورت بصری با بلوک دیاگرام مربوطه نشان داد.

برای ماشینی که طبقه بندی را بر اساس حداقل فاصله انجام می دهد، برابری های زیر برقرار است: w ij = -2x i j , پیروزی +1 = x i x i.

تشخیص معادل توسط روش تابع تفکیک را می توان با تعریف توابع متمایز به عنوان تفاوت انجام داد. d ij (ایکس)=d i (ایکس)‑دی جی (ایکس).

مزیت روش تابع تفکیک ساختار ساده ماشین تشخیص و همچنین امکان اجرای آن عمدتاً از طریق بلوک های تصمیم گیری خطی است.

یکی دیگر از مزایای مهم روش تابع تفکیک، توانایی آموزش خودکار ماشین برای تشخیص صحیح بر اساس یک نمونه (آموزشی) داده شده از تصاویر است.

در عین حال، الگوریتم یادگیری خودکار در مقایسه با سایر روش‌های تشخیص بسیار ساده است.

به این دلایل، روش تابع تفکیک محبوبیت زیادی به دست آورده است و اغلب در عمل استفاده می شود.

روش های خودآموزی برای تشخیص الگو

اجازه دهید روش‌هایی را برای ساخت یک تابع متمایز برای یک نمونه (آموزشی) در رابطه با مسئله تقسیم تصاویر به دو کلاس در نظر بگیریم. اگر دو مجموعه از تصاویر به ترتیب متعلق به کلاس های A و B داده شود، آنگاه راه حل مسئله ساخت یک تابع تفکیک خطی در قالب بردار ضرایب وزنی جستجو می شود. دبلیو=(w 1 ,w 2 ,...,w n,w n+1) که این ویژگی را دارد که برای هر تصویر شرایط زیر برآورده می شود:

ایکساگر > 0 باشد، متعلق به کلاس A است، j=1,2,…n.

ایکسمتعلق به کلاس B اگر<0, j=1,2,…n.

اگر مجموعه آموزشی شامل نتصاویر هر دو کلاس، کار به یافتن بردار w کاهش می یابد که اعتبار سیستم نابرابری ها را تضمین می کند. ندر تصاویر هر دو کلاس، کار به یافتن بردار می رسد w، اطمینان از اعتبار سیستم نابرابری ها

ایکس 1 1 w i+ایکس 21 w 2 +...+x n 1 w n+w n +1 >0;

ایکس 1 2 w i+ایکس 22 w 2 +...+x n 2 w n+w n +1 <0;

ایکس 1 منw i+ایکس 2من w 2 +...+x ni w n+w n +1 >0;

................................................

ایکس 1 نw i +x 2ن w 2 +...+x nN w n +w n + 1>0;

اینجا x i=(x i 1 ، x i 2 ,...,x i n ,x i n+ 1 ) - بردار مقادیر ویژگی تصویر از نمونه آموزشی، علامت > مربوط به بردارهای تصویر است ایکس، متعلق به کلاس A و علامت< - векторам ایکس، متعلق به کلاس B.

وکتور مورد نیاز wاگر کلاس های A و B قابل تفکیک باشند وجود دارد و در غیر این صورت وجود ندارد. مقادیر مؤلفه برداری wرا می توان از قبل، در مرحله قبل از اجرای سخت افزاری SRO یا مستقیماً توسط خود SRO در طول عملیات آن یافت. آخرین مورد از این رویکردها انعطاف پذیری و استقلال بیشتری را برای SRO فراهم می کند. بیایید آن را با استفاده از مثال دستگاهی به نام درصدرون در نظر بگیریم. در سال 1957 توسط دانشمند آمریکایی روزنبلات اختراع شد. یک نمایش شماتیک از درصدرون، که تضمین می کند یک تصویر به یکی از دو کلاس اختصاص داده شده است، در شکل زیر ارائه شده است.

شبکیه چشم اسشبکیه چشم آشبکیه چشم آر

اوه اوه ایکس 1

اوه اوه ایکس 2

اوه اوه ایکس 3

o (جمع)-------> آر(واکنش)

اوه اوه x i

اوه اوه x n

اوه اوه x n +1

این دستگاه از عناصر حسی شبکیه تشکیل شده است اسکه به طور تصادفی به عناصر انجمنی شبکیه متصل می شوند آ. هر عنصر از شبکیه دوم تنها در صورتی سیگنال خروجی تولید می کند که تعداد کافی از عناصر حسی متصل به ورودی آن در حالت برانگیخته باشند. پاسخ کل سیستم آربا مجموع واکنش های عناصر شبکیه شبکیه که با وزن های معین گرفته شده اند، متناسب است.

تعیین شده توسط x iواکنش منعنصر انجمنی و از طریق w i- ضریب وزن واکنش منعنصر انجمنی، واکنش سیستم را می توان به صورت نوشتاری نوشت آر=جمع( w j x j), j=1,..,n. اگر آر> 0، سپس تصویر ارائه شده به سیستم متعلق به کلاس A است و اگر آر<0, то образ относится к классу B. Описание этой процедуры классификации соответствует рассмотренным нами раньше принципам классификации, и, очевидно, перцентронная модель распознавания образов представляет собой, за исключением сенсорной сетчатки, реализацию линейной дискриминантной функции. Принятый в перцентроне принцип формирования значений ایکس 1 , ایکس 2 ,...,x nمربوط به برخی از الگوریتم ها برای تولید ویژگی های مبتنی بر سیگنال های سنسورهای اولیه است.

به طور کلی می تواند چندین عنصر وجود داشته باشد آر، واکنش پرسپترون را تشکیل می دهد. در این مورد، آنها از وجود شبکیه در پرسپترون صحبت می کنند آرعناصر واکنش دهنده

با افزایش تعداد عناصر شبکیه می توان طرح درصدرون را به مواردی تعمیم داد که تعداد کلاس ها بیش از دو کلاس باشد. آرتا تعداد کلاس های قابل تشخیص و معرفی بلوکی برای تعیین حداکثر واکنش مطابق با نمودار ارائه شده در شکل بالا. در این حالت تصویر با شماره به کلاس اختصاص داده می شود من، اگر R i>R j، برای همه j.

فرآیند تمرین درصدرون شامل انتخاب مقادیر ضرایب وزنی است w jبه طوری که سیگنال خروجی مربوط به کلاسی است که تصویر شناسایی شده به آن تعلق دارد.

بیایید الگوریتم عمل درصدرون را با استفاده از مثال تشخیص اشیاء دو کلاس A و B در نظر بگیریم. اشیاء کلاس A باید دارای مقدار متناظر باشند. آر= +1 و کلاس B - مقدار آر= -1.

الگوریتم یادگیری به شرح زیر است.

اگر تصویر بعدی ایکسمتعلق به کلاس A است، اما آر<0 (имеет место ошибка распознавания), тогда коэффициенты w jبا شاخص هایی که مقادیر مربوط به آنهاست x j> 0، مقداری افزایش می یابد dwو ضرایب باقیمانده w jکم شده توسط dw. در این مورد، مقدار واکنش آرمطابق با طبقه بندی صحیح، افزایشی به سمت مقادیر مثبت خود دریافت می کند.

اگر ایکسمتعلق به کلاس B است، اما آر> 0 (خطای تشخیص وجود دارد)، سپس ضرایب w jبا شاخص هایی که مطابقت دارند x j<0, увеличивают на dwو ضرایب باقیمانده w jبه همان میزان کاهش می یابد. در این مورد، مقدار واکنش آرافزایشی به سمت مقادیر منفی مطابق با طبقه بندی صحیح دریافت می کند.

بنابراین الگوریتم تغییری در بردار وزن ها ایجاد می کند wاگر و فقط اگر تصویر ارائه شده در ک- مرحله تمرینی، هنگام انجام این مرحله به اشتباه طبقه بندی شده و از بردار وزنه ها خارج می شود. wبدون تغییر در صورت طبقه بندی صحیح اثبات همگرایی این الگوریتم در [Tu، Gonzalez] ارائه شده است. چنین آموزشی در نهایت (با انتخاب مناسب dwو جداپذیری خطی طبقات تصویر) منجر به بردار می شود w، اطمینان از طبقه بندی صحیح.

روش های تشخیص آماری

روش های آماری مبتنی بر به حداقل رساندن احتمال خطای طبقه بندی است. احتمال P طبقه بندی نادرست یک تصویر ارسال شده برای شناسایی، توصیف شده توسط یک بردار ویژگی ایکس، با فرمول تعیین می شود

P = جمع[ پ(من)مشکلات( D(ایکس)+من | ایکسکلاس من)]

جایی که متر- تعداد کلاس ها

پ(من) = کاوشگر ( ایکسمتعلق به کلاس است من) - احتمال پیشینی تعلق به یک تصویر دلخواه ایکسبه منکلاس th (فرکانس ظاهر شدن تصاویر منکلاس -ام)

D(ایکس) - تابعی که تصمیم طبقه بندی می گیرد (بردار ویژگی ها ایکسبا شماره کلاس مطابقت دارد مناز مجموعه (1،2،...، متر}),

مشکل( D(ایکس) نا برابر من| ایکسمتعلق به کلاس است من) - احتمال وقوع " D(ایکس) نا برابر منزمانی که شرط عضویت برآورده شود ایکسکلاس من، یعنی احتمال تصمیم گیری اشتباه توسط تابع D(ایکس) برای یک مقدار معین ایکس، متعلق به من-کلاس.

می توان نشان داد که احتمال طبقه بندی اشتباه به حداقل می رسد اگر D(ایکس)=مناگر و تنها اگر پ(ایکس|منپ(من)>پ(x|jپ(j)، برای همه i+j، جایی که پ(x|i) - چگالی توزیع تصویر من-کلاس در فضای ویژگی.

طبق قاعده فوق، نکته ایکسمتعلق به کلاسی است که حداکثر مقدار مربوط به آن است پ(من) پ(x|i) ، یعنی حاصل ضرب احتمال قبلی (فرکانس) ظاهر تصاویر من-کلاس و چگالی توزیع تصویر من-کلاس در فضای ویژگی. قانون طبقه بندی ارائه شده بیزی نامیده می شود، زیرا از فرمول بیز که در نظریه احتمالات شناخته شده است نتیجه می گیرد.

مثال. اجازه دهید تشخیص سیگنال های گسسته در خروجی یک کانال اطلاعاتی در معرض نویز ضروری باشد.

هر سیگنال ورودی نشان دهنده 0 یا 1 است. در نتیجه انتقال سیگنال، مقدار در خروجی کانال ظاهر می شود. ایکس، که با نویز گاوسی با میانگین صفر و واریانس b روی هم قرار می گیرد.

برای سنتز طبقه بندی کننده ای که تشخیص سیگنال را انجام می دهد، از قانون طبقه بندی بیزی استفاده می کنیم.

سیگنال هایی که یک ها را نشان می دهند در کلاس شماره 1 و سیگنال هایی که صفرها را در کلاس شماره 2 نشان می دهند ترکیب می کنیم. بگذارید از قبل بدانیم که به طور متوسط ​​از هر 1000 سیگنال آسیگنال ها واحدها و بسیگنال ها - صفر. سپس مقادیر احتمالات پیشینی ظهور سیگنال های کلاس های 1 و 2 (یک و صفر) را می توان برابر در نظر گرفت.

p(1)=a/1000، p(2)=b/1000.

زیرا نویز گوسی است، یعنی. از قانون توزیع نرمال (گاوسی) تبعیت می کند، سپس چگالی توزیع تصاویر کلاس اول بسته به مقدار ایکس، یا، که همان چیزی است، احتمال به دست آوردن مقدار خروجی است ایکسهنگامی که یک سیگنال 1 در ورودی اعمال می شود، با عبارت تعیین می شود

پ(ایکس¦1) =(2pib) -1/2 exp(-( ایکس-1) 2 /(2b 2))،

و چگالی توزیع بسته به مقدار ایکستصاویر کلاس دوم، یعنی. احتمال به دست آوردن مقدار خروجی ایکسهنگامی که یک سیگنال 0 در ورودی اعمال می شود، توسط عبارت تعیین می شود

پ(ایکس¦2)= (2pib) -1/2 exp(- ایکس 2 /(2b 2))،

استفاده از قانون تصمیم بیزی منجر به این نتیجه می شود که سیگنال کلاس 2 ارسال شده است، یعنی. null تصویب می شود اگر

پ(2) پ(ایکس¦2) > پ(1) پ(ایکس¦1)

یا، به طور خاص، اگر

ب exp(- ایکس 2 /(2b 2)) > آ exp(-( ایکس-1) 2 /(2b 2))،

با تقسیم سمت چپ نابرابری بر سمت راست، دریافت می کنیم

(ب/آ) exp((1-2 ایکس)/(2b 2)) > 1،

جایی که پس از گرفتن لگاریتم پیدا می کنیم

1-2ایکس> 2b 2 ln(a/b)

ایکس< 0.5 - б 2 ln(a/b)

از نابرابری حاصل چنین نتیجه می شود که وقتی a=b، یعنی با احتمالات پیشینی برابر برای وقوع سیگنال های 0 و 1، به تصویر مقدار 0 اختصاص داده می شود. ایکس<0.5, а значение 1, когда ایکس>0.5.

اگر از قبل معلوم شده باشد که یکی از سیگنال ها بیشتر و دیگری کمتر ظاهر می شود، یعنی. در صورت وجود مقادیر نابرابر آو ب، آستانه پاسخ طبقه بندی کننده در یک جهت یا جهت دیگر تغییر می کند.

بنابراین، هنگامی که الف/ب= 2.71 (که مربوط به 2.71 برابر بیشتر ارسال واحدها است) و b 2 = 0.1، اگر به تصویر مقدار 0 اختصاص داده شود. ایکس<0.4, и значение 1, если ایکس>0.4. اگر اطلاعاتی در مورد احتمالات توزیع قبلی وجود نداشته باشد، می توان از روش های تشخیص آماری استفاده کرد که بر اساس قوانین طبقه بندی غیر از بیزی است.

با این حال، در عمل، روش‌های مبتنی بر قواعد بیز به دلیل کارایی بیشتر و همچنین به دلیل این که در اکثر مسائل تشخیص الگو امکان تنظیم احتمالات پیشینی ظاهر تصاویر هر کلاس وجود دارد، رایج‌ترین روش‌ها هستند.

روش های زبانی تشخیص الگو.

روش های زبان شناختی تشخیص الگو بر اساس تجزیه و تحلیل توصیف یک تصویر ایده آل است که در قالب یک نمودار یا زنجیره ای از کاراکترها ارائه می شود که عبارت یا جمله ای از یک زبان خاص است.

تصاویر ایده آلی از حروف را که در نتیجه اولین مرحله تشخیص زبانی که در بالا توضیح داده شد، در نظر بگیرید. این تصاویر ایده آل را می توان با توصیف نمودارها مشخص کرد، به عنوان مثال، به شکل ماتریس های اتصال، همانطور که در مثال مورد بحث در بالا انجام شد. همین توصیف را می توان با عبارتی از یک زبان رسمی (بیان) نشان داد.

مثال. بگذارید سه تصویر از حرف A داده شود که در نتیجه پردازش اولیه تصویر به دست آمده است. بیایید این تصاویر را با شناسه های A1، A2 و A3 نشان دهیم.

برای توصیف زبانی تصاویر ارائه شده از PDL (Picture Description Language) استفاده می کنیم. واژگان PDL شامل نمادهای زیر است:

1. نام ساده ترین تصاویر (اولیه). همانطور که در مورد مورد بررسی اعمال می شود، اولیه ها و نام های مربوط به آنها به شرح زیر است.

تصاویر به صورت خط کارگردانی شده:

بالا و چپ (le اف t)، شمال (شمال)، بالا و سمت راست (راست)، شرق).

نام ها: L، N، R، E.

2. نمادهای عملیات باینری. (+،*،-) معنای آنها مربوط به پیوند متوالی اولیات (+)، ارتباط آغاز و پایان اولیه (*)، ارتباط فقط پایان های اولیه (-) است.

3. براکت راست و چپ. ((،)) پرانتز به شما امکان می دهد دنباله عملیات را در یک عبارت تعیین کنید.

تصاویر در نظر گرفته شده A1، A2 و A3 به ترتیب به زبان PDL با عبارات زیر توصیف می شوند.

T(1)=R+((R-(L+N))*E-L

T(2)=(R+N)+((N+R)-L)*E-L

T(3)=(N+R)+(R-L)*E-(L+N)

پس از اینکه توصیف زبانی تصویر ساخته شد، لازم است با استفاده از برخی روش های تشخیص، تحلیل کنیم که آیا این تصویر به کلاس مورد علاقه ما (کلاس حروف A) تعلق دارد یا خیر. این تصویر ساختار خاصی دارد یا نه. برای انجام این کار، ابتدا لازم است دسته ای از تصاویر را که ساختار مورد علاقه ما را دارند، توضیح دهیم.

بدیهی است که حرف A همیشه حاوی عناصر ساختاری زیر است: یک پای چپ، یک پای راست و یک سر. بیایید این عناصر را به ترتیب STL، STR، TR بنامیم.

سپس در زبان PDL کلاس نماد A - SIMB A با عبارت توصیف می شود

SIMB A = STL + TR - STR

"پای" سمت چپ STL همیشه زنجیره ای از عناصر R و N است که می توان آن را به این صورت نوشت

STL ‑> R ¦ N ¦ (STL + R)¦ (STL + N)

(STL کاراکتر R یا N یا رشته ای است که با افزودن کاراکترهای R یا N به رشته STL منبع به دست می آید)

"پای" سمت راست STR همیشه زنجیره ای از عناصر L و N است که می توان آن را به این صورت نوشت، یعنی.

STR ‑> L¦N¦ (STR + L)¦ (STR + N)

قسمت سر حرف - TR یک کانتور بسته است که از عنصر E و زنجیره هایی مانند STL و STR تشکیل شده است.

در PDL، ساختار TR با عبارت توصیف می شود

TR ‑> (STL - STR) * E

در نهایت شرح زیر را از حرف کلاس A دریافت می کنیم:

SIMB A ‑> (STL + TR - STR)،

STL ‑> R¦N¦ (STL + R)¦ (STL + N)

STR ‑> L¦N¦ (STR + L)¦ (STR + N)

TR ‑> (STL - STR) * E

رویه شناسایی در این مورد می تواند به صورت زیر اجرا شود.

1. عبارت مربوط به تصویر با ساختار مرجع STL + TR - STR مقایسه می شود.

2. هر عنصر از ساختار STL، TR، STR، در صورت امکان، i.e. اگر توضیحات تصویر با استاندارد قابل مقایسه باشد، برخی از عبارت های فرعی از عبارت T(A) مطابقت داده می شود. مثلا،

برای A1: STL=R، STR=L، TR=(R-(L+N))*E

برای A2: STL = R + N، STR = L، TR = ((N + R) - L) * E

برای A3: STL = N + R، STR = L + N، TR = (R - L) * E 3.

عبارات STL، STR، TR با ساختار مرجع مربوطه خود مقایسه می شوند.

4. اگر ساختار هر عبارت STL، STR، TR با استاندارد مطابقت داشته باشد، نتیجه گیری می شود که تصویر متعلق به کلاس حرف A است. اگر در هر یک از مراحل 2، 3، 4 اختلاف بین ساختار مورد تجزیه و تحلیل وجود داشته باشد. بیان و استاندارد شناسایی می شود، نتیجه گیری می شود که تصویر متعلق به کلاس SIMB A نیست. مقایسه ساختارهای بیانی را می توان با استفاده از زبان های الگوریتمی LISP، PLANER، PROLOG و سایر زبان های هوش مصنوعی مشابه انجام داد.

در مثال مورد بررسی، تمام زنجیره های STL از نمادهای N و R و زنجیره های STR از نمادهای L و N تشکیل شده اند که با ساختار داده شده این زنجیره ها مطابقت دارد. ساختار TR در تصاویر مورد بررسی نیز با نمونه مرجع مطابقت دارد، زیرا شامل "تفاوت" زنجیره هایی مانند STL، STR، "ضرب" با نماد E است.

بنابراین، به این نتیجه می رسیم که تصاویر مورد بررسی متعلق به کلاس هستند SIMBآ.


سنتز یک کنترل کننده فازی برای یک درایو الکتریکی DCدر محیط MatLab

سنتز یک کنترل کننده فازی با یک ورودی و خروجی.

چالش این است که درایو سیگنال های ورودی مختلف را به دقت دنبال کند. توسعه عمل کنترل توسط یک کنترل کننده فازی انجام می شود که در آن بلوک های عملکردی زیر را می توان از نظر ساختاری متمایز کرد: یک فازی فایر، یک بلوک قوانین و یک دیفازیفایر.

شکل 4 نمودار عملکردی تعمیم یافته یک سیستم با دو متغیر زبانی.

شکل 5 نمودار شماتیککنترل کننده فازی با دو متغیر زبانی.

الگوریتم کنترل فازی در حالت کلی، تبدیل متغیرهای ورودی یک کنترل‌کننده فازی به متغیرهای خروجی آن با استفاده از روش‌های مرتبط زیر است:

1. تبدیل متغیرهای فیزیکی ورودی دریافت شده از حسگرهای اندازه گیری از شی کنترل به متغیرهای زبانی ورودی یک کنترل کننده فازی.

2. پردازش گزاره های منطقی، به نام قواعد زبانی، در مورد متغیرهای زبانی ورودی و خروجی کنترل کننده.

3. تبدیل متغیرهای زبانی خروجی کنترل کننده فازی به متغیرهای کنترل فیزیکی.

اجازه دهید ابتدا ساده ترین حالت را در نظر بگیریم، زمانی که تنها دو متغیر زبانی برای کنترل درایو سروو معرفی می شوند:

"زاویه" یک متغیر ورودی است.

"کنترل کنش" متغیر خروجی است.

ما کنترلر را در محیط MatLab با استفاده از جعبه ابزار Fuzzy Logic ترکیب می کنیم. این به شما امکان می دهد سیستم های استنتاج فازی و طبقه بندی فازی را در محیط MatLab ایجاد کنید، با قابلیت ادغام آنها در Simulink. مفهوم اصلی جعبه ابزار منطق فازی ساختار FIS - سیستم استنتاج فازی است. ساختار FIS شامل تمام داده‌های لازم برای اجرای نقشه‌برداری عملکردی «ورودی‌ها-خروجی‌ها» بر اساس استنتاج منطقی فازی مطابق نمودار نشان‌داده‌شده در شکل است. 6.


شکل 6. استنتاج فازی.

X - بردار واضح ورودی؛ - بردار مجموعه های فازی مربوط به بردار ورودی X.
- نتیجه استنتاج منطقی در قالب بردار مجموعه های فازی؛ Y - بردار روشن خروجی.

ماژول فازی به شما امکان می دهد سیستم های فازی از دو نوع - ممدانی و سوگنو بسازید. در سیستم هایی مانند ممدانی، پایگاه دانش از قواعد شکل تشکیل شده است "اگر x 1 = کم و x 2 = متوسط، پس y = زیاد". در سیستم‌های نوع Sugeno، پایگاه دانش از قوانین فرم تشکیل شده است "اگر x 1 = کم و x 2 = متوسط، آنگاه y = a 0 +a 1 x 1 +a 2 x 2 ". بنابراین، تفاوت اصلی بین سیستم‌های ممدانی و سوگنو در روش‌های مختلف تعیین مقادیر متغیر خروجی در قوانینی است که پایگاه دانش را تشکیل می‌دهند. در سیستم‌های نوع ممدانی، مقادیر متغیر خروجی با عبارات فازی، در سیستم‌های نوع Sugeno به صورت ترکیب خطی متغیرهای ورودی مشخص می‌شود. در مورد ما، ما از سیستم Sugeno استفاده خواهیم کرد، زیرا بهینه سازی را بهتر می کند.

برای کنترل سروو درایو، دو متغیر زبانی معرفی شده است: "خطا" (بر اساس موقعیت) و "کنترل کنش". اولین آنها ورودی است، دومی خروجی است. اجازه دهید یک مجموعه اصطلاح برای متغیرهای مشخص شده تعریف کنیم.

اجزای اساسی استنتاج منطقی فازی فاز ساز.

برای هر متغیر زبانی، یک مجموعه اصطلاح اساسی از فرم را تعریف می کنیم که شامل مجموعه های فازی است که می توان آنها را تعیین کرد: منفی زیاد، منفی کم، صفر، مثبت کم، مثبت زیاد.

اول از همه، اجازه دهید به طور ذهنی تعریف کنیم که منظور از عبارات "خطای بزرگ"، "خطای کوچک" و غیره چیست، و توابع عضویت را برای مجموعه های فازی مربوطه تعریف کنیم. در اینجا، در حال حاضر، فقط می توانید با دقت مورد نیاز، پارامترهای شناخته شده برای کلاس سیگنال های ورودی و عقل سلیم هدایت شوید. هیچ کس هنوز نتوانسته است الگوریتم دقیقی را برای انتخاب پارامترهای توابع عضویت پیشنهاد کند. در مورد ما، متغیر زبانی "خطا" به این شکل خواهد بود.

شکل 7. متغیر زبانی «خطا».

ارائه متغیر زبانی "کنترل" در قالب یک جدول راحت تر است:

میز 1

بلوک قانون.

بیایید دنباله تعریف چندین قانون را در نظر بگیریم که برخی موقعیت ها را توصیف می کند:

برای مثال فرض کنید زاویه خروجی برابر با سیگنال ورودی باشد (یعنی خطا صفر باشد). بدیهی است که این وضعیت مطلوب است و بنابراین ما مجبور به انجام کاری نیستیم (عمل کنترل صفر است).

حال یک مورد دیگر را در نظر بگیرید: خطای موقعیت بسیار بزرگتر از صفر است. طبیعتاً باید با تولید یک سیگنال کنترل مثبت بزرگ آن را جبران کنیم.

که دو قانون تنظیم شده است که به طور رسمی می توان آنها را به شرح زیر تعریف کرد:

اگرخطا = پوچ، کهعمل کنترل = صفر

اگرخطا = مثبت بزرگ، کهتأثیر کنترل = مثبت بزرگ

شکل 8. تشکیل کنترل با یک خطای مثبت کوچک در موقعیت.

شکل 9. تشکیل کنترل با خطای موقعیت صفر.

جدول زیر تمام قوانین مربوط به همه موقعیت ها را برای این مورد ساده نشان می دهد.

جدول 2

در مجموع، برای یک کنترل کننده فازی با n ورودی و 1 خروجی، قوانین کنترلی را می توان تعریف کرد، که در آن تعداد مجموعه های فازی برای ورودی i است، اما برای عملکرد عادی کنترلر، استفاده از تمام موارد ممکن ضروری نیست. قوانین، اما شما می توانید با تعداد کمتری از آنها کنار بیایید. در مورد ما، تمام 5 قانون ممکن برای تولید یک سیگنال کنترل فازی استفاده می شود.

دیفازیفایر.

بنابراین، تأثیر U با توجه به اجرای برخی از قوانین تعیین می شود. اگر موقعیتی ایجاد شود که چندین قانون به طور همزمان اجرا شوند، تأثیر U بر اساس رابطه زیر پیدا می شود:

، که در آن n تعداد قوانین راه اندازی شده است (فازی زدایی با روش مرکز منطقه)، u n- مقدار فیزیکی سیگنال کنترل مربوط به هر یک از مجموعه های فازی UBO, UMO, Uز, UMp, UBپ. مترun(u)– درجه تعلق سیگنال کنترل u به مجموعه فازی مربوطه Un=( UBO, UMO, Uز, UMp, UBپ). روش‌های دیگری نیز وجود دارد که متغیر زبانی خروجی با قاعده «قوی‌ترین» یا «ضعیف‌ترین» متناسب است.

اجازه دهید فرآیند کنترل یک درایو الکتریکی را با استفاده از کنترل کننده فازی که در بالا توضیح داده شد، مدل کنیم.

شکل 10. بلوک دیاگرام سیستم در محیطمتلب.

شکل 11. بلوک دیاگرام یک کنترل کننده فازی در یک محیطمتلب.

شکل 12. فرآیند گذرا تحت یک اقدام تک مرحله ای.

برنج. 13. فرآیند گذرا تحت عمل ورودی هارمونیک برای یک مدل با یک کنترل کننده فازی حاوی یک متغیر زبانی ورودی.

تجزیه و تحلیل ویژگی های درایو با یک الگوریتم کنترل سنتز شده نشان می دهد که آنها از حالت بهینه و بدتر از زمان سنتز کنترل با روش های دیگر هستند (زمان کنترل برای یک اقدام تک مرحله ای بسیار طولانی است و خطا هارمونیک است). این با این واقعیت توضیح داده می شود که پارامترهای توابع عضویت کاملاً خودسرانه انتخاب شده اند و فقط مقدار خطای موقعیت به عنوان ورودی کنترل کننده استفاده شده است. طبیعتاً نمی توان از بهینه بودن تنظیم کننده حاصل صحبت کرد. بنابراین، وظیفه بهینه‌سازی یک کنترل‌کننده فازی برای دستیابی به بالاترین شاخص‌های کیفیت کنترل ممکن می‌شود. آن ها وظیفه بهینه سازی تابع هدف f(a 1 ,a 2 …a n) است که در آن a 1 ,a 2 …a n ضرایبی هستند که نوع و ویژگی های کنترل کننده فازی را تعیین می کنند. برای بهینه سازی کنترل کننده فازی از بلوک ANFIS از محیط Matlab استفاده می کنیم. همچنین یکی از راه های بهبود ویژگی های کنترلر ممکن است افزایش تعداد ورودی های آن باشد. این باعث انعطاف پذیری رگولاتور و بهبود عملکرد آن می شود. بیایید یک متغیر زبانی ورودی دیگر اضافه کنیم - نرخ تغییر سیگنال ورودی (مشتق آن). بر این اساس تعداد قوانین افزایش خواهد یافت. سپس نمودار مدار رگولاتور به شکل زیر خواهد بود:

شکل 14 نمودار شماتیک یک کنترل کننده فازی با سه متغیر زبانی.

اجازه دهید مقدار سرعت سیگنال ورودی باشد. مجموعه اصطلاح اصلی Tn را اینگونه تعریف می کنیم:

Tn=("منفی (BO)"، "صفر (Z)"، "مثبت (BP)").

محل توابع عضویت برای همه متغیرهای زبانی در شکل نشان داده شده است.

شکل 15. توابع عضویت متغیر زبانی «خطا».

شکل 16. توابع عضویت متغیر زبانی "سرعت سیگنال ورودی".

با توجه به اضافه شدن یک متغیر زبانی دیگر، تعداد قوانین به 3x5=15 افزایش می یابد. اصل گردآوری آنها کاملاً مشابه آنچه در بالا بحث شد است. همه آنها در جدول زیر نشان داده شده است:

جدول 3

سیگنال فازی

مدیریت

خطای موقعیت

سرعت

به عنوان مثال، اگر اگرخطا = صفر و مشتق سیگنال ورودی = مثبت بزرگ، کهتأثیر کنترل = منفی کوچک.

شکل 17. شکل گیری کنترل تحت سه متغیر زبانی.

با توجه به افزایش تعداد ورودی ها و بر این اساس، خود قوانین، ساختار کنترل کننده فازی پیچیده تر می شود.

شکل 18. بلوک دیاگرام یک کنترل کننده فازی با دو ورودی.

یک عکس اضافه کنید

شکل 20. فرآیند گذرا تحت عمل ورودی هارمونیک برای یک مدل با یک کنترل کننده فازی حاوی دو متغیر زبانی ورودی.

برنج. 21. سیگنال خطا تحت عمل ورودی هارمونیک برای یک مدل با یک کنترل کننده فازی حاوی دو متغیر زبانی ورودی.

بیایید عملکرد یک کنترل کننده فازی با دو ورودی را در محیط Matlab شبیه سازی کنیم. بلوک دیاگرام مدل دقیقاً مانند شکل 1 خواهد بود. 19. از نمودار فرآیند گذرا برای اثر ورودی هارمونیک، می توان دریافت که دقت سیستم به طور قابل توجهی افزایش یافته است، اما در عین حال نوسان آن افزایش یافته است، به خصوص در مکان هایی که مشتق مختصات خروجی تمایل دارد. به صفر بدیهی است که دلایل این امر، همانطور که در بالا ذکر شد، انتخاب غیربهینه پارامترهای تابع عضویت برای متغیرهای زبانی ورودی و خروجی است. بنابراین، ما کنترل کننده فازی را با استفاده از بلوک ANFISedit در محیط Matlab بهینه می کنیم.

بهینه سازی یک کنترل کننده فازی

بیایید استفاده از الگوریتم های ژنتیک را برای بهینه سازی یک کنترل کننده فازی در نظر بگیریم. الگوریتم‌های ژنتیک روش‌های جستجوی تطبیقی ​​هستند که اخیراً اغلب برای حل مسائل بهینه‌سازی عملکردی استفاده می‌شوند. آنها بر اساس شباهت به فرآیندهای ژنتیکی موجودات بیولوژیکی هستند: جمعیت های بیولوژیکی طی چندین نسل، با پیروی از قوانین انتخاب طبیعی و بر اساس اصل "بقای بهترین ها" کشف شده توسط چارلز داروین، توسعه می یابند. با تقلید از این فرآیند، الگوریتم‌های ژنتیک می‌توانند راه‌حل‌های مسائل دنیای واقعی را در صورتی که به‌درستی کدگذاری شده باشند، «تکامل» کنند.

الگوریتم‌های ژنتیک با مجموعه‌ای از «افراد» کار می‌کنند - جمعیتی که هر کدام نشان دهنده راه حل ممکناین مشکل. هر فردی با معیار «انطباق پذیری» خود بر اساس میزان «خوب» بودن راه حل مشکل مربوط به آن ارزیابی می شود. مناسب ترین افراد می توانند فرزندان خود را از طریق "تقابل نژادی" با سایر افراد در جمعیت "تولید" کنند. این منجر به ظهور افراد جدیدی می شود که برخی از ویژگی هایی را که از والدین خود به ارث می برند ترکیب می کنند. افراد کم تناسب کمتر احتمال تولید مثل دارند، بنابراین هر صفتی که داشته باشند به تدریج از جمعیت محو می شود.

اینگونه است که کل جمعیت جدید راه حل های امکان پذیر بازتولید می شود، بهترین نمایندگان نسل قبلی را انتخاب می کنند، از آنها عبور می کنند و افراد جدید زیادی به دست می آورند. این نسل جدید دارای نسبت بالاتری از ویژگی های اعضای خوب نسل قبل است. بنابراین، از نسلی به نسل دیگر، ویژگی های خوب در سراسر جمعیت پخش می شود. در نهایت، جمعیت به راه حل بهینه برای مشکل همگرا خواهند شد.

راه های زیادی برای پیاده سازی ایده تکامل بیولوژیکی در چارچوب الگوریتم های ژنتیک وجود دارد. سنتی را می توان به صورت بلوک دیاگرام زیر نشان داده شده در شکل 22 نشان داد، که در آن:

1. راه‌اندازی جمعیت اولیه - تولید تعداد معینی از راه‌حل‌ها برای مسئله، که فرآیند بهینه‌سازی با آن آغاز می‌شود.

2. کاربرد عملگرهای متقاطع و جهش.

3. شرایط توقف - معمولاً فرآیند بهینه‌سازی تا زمانی ادامه می‌یابد که راه‌حلی برای مشکل با دقت معین پیدا شود، یا تا زمانی که مشخص شود که فرآیند همگرا شده است (یعنی راه‌حل مسئله نسبت به نسل‌های گذشته بهبود نیافته است).

در محیط Matlab الگوریتم های ژنتیک با جعبه ابزار جداگانه و همچنین بسته ANFIS نمایش داده می شوند. ANFIS مخفف Adaptive-Network-Based Fuzzy Inference System - شبکه استنتاج فازی تطبیقی ​​است. ANFIS یکی از اولین انواع شبکه های عصبی فازی ترکیبی است - نوع خاصی از شبکه عصبی پیشخور. معماری یک شبکه عصبی فازی به یک پایگاه دانش فازی هم شکل است. شبکه‌های فازی عصبی از پیاده‌سازی‌های قابل تمایز هنجارهای مثلثی (ضرب و OR احتمالی) و همچنین توابع عضویت صاف استفاده می‌کنند. این به شما امکان می دهد از الگوریتم های سریع و ژنتیک برای آموزش شبکه های عصبی بر اساس روش انتشار پس زمینه برای راه اندازی شبکه های عصبی فازی استفاده کنید. معماری و قوانین عملیاتی هر لایه از شبکه ANFIS در زیر توضیح داده شده است.

ANFIS سیستم استنتاج فازی Sugeno را به عنوان یک شبکه عصبی پیشخور پنج لایه پیاده سازی می کند. هدف لایه ها به شرح زیر است: لایه اول شرایط متغیرهای ورودی است. لایه دوم - مقدمات (موقعیت) قوانین فازی؛ لایه سوم عادی سازی درجه انطباق با قوانین است. لایه چهارم نتیجه گیری قوانین است. لایه پنجم تجمیع نتیجه به دست آمده بر اساس قوانین مختلف است.

ورودی های شبکه به یک لایه مجزا تخصیص داده نمی شوند. شکل 23 یک شبکه ANFIS را با یک متغیر ورودی ("خطا") و پنج قانون فازی نشان می دهد. برای ارزیابی زبانی متغیر ورودی «خطا» از 5 عبارت استفاده شده است.


شکل 23. ساختارANFIS-شبکه های

اجازه دهید نماد زیر را برای ارائه بیشتر معرفی کنیم:

اجازه دهید ورودی های شبکه باشند.

y - خروجی شبکه؛

قانون فازی با شماره دنباله r;

m - تعداد قوانین؛

یک اصطلاح فازی با تابع عضویت که برای ارزیابی زبانی یک متغیر در قانون r-th (,) استفاده می‌شود.

اعداد واقعی در نتیجه گیری از قانون r-ام (،).

شبکه ANFIS به شرح زیر عمل می کند.

لایه 1.هر گره در لایه اول یک عبارت را با تابع عضویت زنگی شکل نشان می دهد. ورودی های شبکه فقط به شرایط آنها متصل می شوند. تعداد گره ها در لایه اول برابر است با مجموع کاردینالیتی های مجموعه ترم متغیرهای ورودی. خروجی گره درجه ای است که مقدار متغیر ورودی به عبارت فازی مربوطه تعلق دارد:

,

که در آن a، b و c پارامترهای قابل تنظیم تابع عضویت هستند.

لایه 2.تعداد گره ها در لایه دوم m است. هر گره در این لایه با یک قانون فازی مطابقت دارد. گره لایه دوم به آن دسته از گره های لایه اول متصل است که مقدمات قاعده مربوطه را تشکیل می دهند. بنابراین، هر گره در لایه دوم می تواند از 1 تا n سیگنال ورودی دریافت کند. خروجی گره درجه اجرای قانون است که به عنوان حاصل ضرب سیگنال های ورودی محاسبه می شود. اجازه دهید خروجی گره های این لایه را با، نشان دهیم.

لایه 3.تعداد گره های لایه سوم نیز m است. هر گره از این لایه میزان نسبی اجرای قانون فازی را محاسبه می کند:

لایه 4.تعداد گره ها در لایه چهارم نیز m است. هر گره به یک گره از لایه سوم و همچنین به تمام ورودی های شبکه متصل است (اتصال با ورودی ها در شکل 18 نشان داده نشده است). گره لایه چهارم سهم یک قانون فازی را در خروجی شبکه محاسبه می کند:

لایه 5.یک گره واحد در این لایه مشارکت همه قوانین را خلاصه می کند:

.

رویه‌های معمولی برای آموزش شبکه‌های عصبی را می‌توان برای پیکربندی شبکه ANFIS استفاده کرد زیرا فقط از توابع قابل تمایز استفاده می‌کند. به طور معمول، ترکیبی از نزول گرادیان به شکل پس انتشار و حداقل مربعات استفاده می شود. الگوریتم پس انتشار پارامترهای پیشینیان قوانین را تنظیم می کند. توابع عضویت ضرایب نتیجه گیری قوانین با استفاده از روش حداقل مربعات تخمین زده می شود، زیرا آنها به طور خطی با خروجی شبکه مرتبط هستند. هر تکرار از رویه راه اندازی در دو مرحله انجام می شود. در مرحله اول یک نمونه آموزشی به ورودی ها ارائه می شود و بر اساس مغایرت رفتار مطلوب و واقعی شبکه، پارامترهای بهینه گره های لایه چهارم با استفاده از روش حداقل مربعات تکراری پیدا می شود. در مرحله دوم، باقیمانده باقیمانده از خروجی شبکه به ورودی‌ها منتقل می‌شود و پارامترهای گره‌های لایه اول با استفاده از روش پس انتشار اصلاح می‌شوند. در این حالت، ضرایب نتیجه گیری قاعده یافت شده در مرحله اول تغییر نمی کند. روند تنظیم تکراری تا زمانی ادامه می یابد که اختلاف از مقدار از پیش تعیین شده تجاوز کند. برای تنظیم توابع عضویت، علاوه بر روش انتشار پس زمینه، می توان از سایر الگوریتم های بهینه سازی برای مثال روش لونبرگ-مارکوارت استفاده کرد.

شکل 24. ANFIS ناحیه کاری را ویرایش کنید.

اجازه دهید اکنون سعی کنیم کنترل کننده فازی را برای یک اقدام تک مرحله ای بهینه کنیم. فرآیند گذرا مورد نظر تقریباً به شکل زیر است:

شکل 25. فرآیند انتقال مورد نظر

از نمودار نشان داده شده در شکل. نتیجه این است که بیشتر اوقات موتور باید در آن کار کند قدرت کاملبرای اطمینان از حداکثر عملکرد، و هنگام نزدیک شدن به مقدار مورد نظر، باید به آرامی سرعت آن کاهش یابد. با هدایت این آرگومان‌های ساده، نمونه‌ای از مقادیر زیر را که در زیر به شکل جدول ارائه شده است، به عنوان نمونه آموزشی می‌گیریم:

جدول 4


مقدار خطا

مقدار کنترل

مقدار خطا

مقدار کنترل

مقدار خطا

مقدار کنترل


شکل 26. نوع نمونه آموزشی

ما آموزش را در 100 مرحله انجام خواهیم داد. این برای همگرایی روش مورد استفاده بیش از اندازه کافی است.

شکل 27. فرآیند آموزش شبکه عصبی

در طول فرآیند یادگیری، پارامترهای توابع عضویت به گونه ای شکل می گیرند که برای یک مقدار خطای معین، کنترل کننده کنترل لازم را ایجاد می کند. در ناحیه بین نقاط گرهی، وابستگی کنترل به خطا، درون یابی داده های جدول است. روش درونیابی بستگی به نحوه آموزش شبکه عصبی دارد. در واقع پس از آموزش می توان مدل کنترل کننده فازی را به صورت تابع غیرخطی یک متغیر نشان داد که نمودار آن در زیر ارائه شده است.

شکل 28. نمودار کنترل در مقابل خطای موقعیت در داخل کنترلر.

پس از ذخیره پارامترهای یافت شده از توابع عضویت، سیستم را با یک کنترل کننده فازی بهینه سازی شده شبیه سازی می کنیم.


برنج. 29. فرآیند گذرا تحت عمل ورودی هارمونیک برای یک مدل با یک کنترل کننده فازی بهینه شده حاوی یک متغیر زبانی ورودی.

شکل 30. سیگنال خطا تحت عمل ورودی هارمونیک برای یک مدل با یک کنترل کننده فازی حاوی دو متغیر زبانی ورودی.


از نمودارها به دست می آید که بهینه سازی کنترل کننده فازی با استفاده از آموزش شبکه عصبی موفقیت آمیز بوده است. تنوع و بزرگی خطا به طور قابل توجهی کاهش یافت. بنابراین، استفاده از یک شبکه عصبی برای بهینه‌سازی تنظیم‌کننده‌هایی که اصل عملکرد آنها مبتنی بر منطق فازی است، کاملاً موجه است. با این حال، حتی یک کنترل‌کننده بهینه‌شده نیز نمی‌تواند الزامات دقت را برآورده کند، بنابراین توصیه می‌شود زمانی که کنترل‌کننده فازی شی را مستقیماً کنترل نمی‌کند، اما چندین قانون کنترل را بسته به وضعیت فعلی ترکیب می‌کند، روش کنترل دیگری را در نظر گرفت.

تصویر به عنوان یک توصیف ساختاریافته از شی یا پدیده مورد مطالعه درک می شود که توسط بردار ویژگی ها نشان داده می شود که هر عنصر آن مقدار عددی یکی از ویژگی های شی مربوطه را نشان می دهد.

ساختار کلی سیستم تشخیص به شرح زیر است:

منظور از کار شناسایی این است که مشخص شود آیا اشیاء مورد مطالعه دارای مجموعه محدود ثابتی از ویژگی ها هستند که به آنها اجازه می دهد در یک کلاس خاص طبقه بندی شوند. وظایف تشخیص دارای ویژگی های مشخصه زیر است:

1. اینها وظایف اطلاعاتی شامل دو مرحله است:

آ. کاهش داده های منبع به فرمی مناسب برای تشخیص.

ب تشخیص خود نشانه ای از تعلق یک شی به یک کلاس خاص است.

2. در این کارها می توانید مفهوم قیاس یا تشابه اشیاء را معرفی کنید و مفهوم مجاورت اشیاء را مبنایی برای طبقه بندی اشیاء به یک کلاس یا طبقات مختلف فرموله کنید.

3. در این وظایف، می توانید با مجموعه ای از پیشینه ها عمل کنید - مثال هایی که طبقه بندی آنها مشخص است و در قالب توضیحات رسمی می توان به الگوریتم تشخیص ارائه کرد تا در طول فرآیند یادگیری با کار تنظیم شود.

4. برای این مسائل ساختن نظریه های رسمی و به کارگیری روش های ریاضی کلاسیک دشوار است: اغلب اطلاعات یک مدل ریاضی دقیق یا سود حاصل از استفاده از مدل و روش های ریاضی با هزینه ها متناسب نیست.

5. در این وظایف، "اطلاعات بد" امکان پذیر است - اطلاعات با حذفیات، ناهمگن، غیر مستقیم، مبهم، مبهم، احتمالی.

توصیه می شود انواع کارهای شناسایی زیر را تشخیص دهید:

1. وظیفه تشخیص، یعنی اختصاص دادن یک شی ارائه شده با توجه به توضیحات آن به یکی از کلاس های داده شده (یادگیری نظارت شده).

2. وظیفه طبقه‌بندی خودکار، تقسیم مجموعه‌ای از اشیا (موقعیت‌ها) با توجه به توصیف آنها به سیستمی از طبقات غیر همپوشانی (رده‌بندی، تحلیل خوشه‌ای، یادگیری بدون نظارت) است.

3. وظیفه انتخاب مجموعه ای آموزنده از ویژگی ها در هنگام شناسایی.

4. وظیفه کاهش داده های منبع به شکلی مناسب برای تشخیص.

5. تشخیص دینامیک و طبقه بندی پویا - وظایف 1 و 2 برای اشیاء پویا.

6. مشکل پیش بینی - مسائل 5 که در آن تصمیم باید به نقطه ای در آینده مربوط شود.

مفهوم تصویر.

یک تصویر، یک کلاس گروه بندی طبقه بندی در یک سیستم است که گروه خاصی از اشیاء را با توجه به یک معیار خاص متحد می کند (انتخاب می کند). تصاویر دارای تعدادی ویژگی مشخصه هستند که خود را در این واقعیت نشان می دهند که آشنایی با تعداد محدودی از پدیده ها از یک مجموعه امکان تشخیص تعداد زیادی از نمایندگان آن را به دلخواه می دهد.


مجموعه خاصی از حالات یک شیء کنترلی را نیز می توان به عنوان یک تصویر در نظر گرفت، و کل این مجموعه حالت ها با این واقعیت مشخص می شود که برای دستیابی به یک هدف معین، همان تاثیر روی شی مورد نیاز است. تصاویر دارای ویژگی های عینی مشخصی هستند به این معنا که مردم مختلفکه بر روی مواد رصدی مختلف آموزش دیده اند، در اکثر موارد اشیاء یکسان را به روشی مشابه و مستقل از یکدیگر طبقه بندی می کنند.

به طور کلی مسئله تشخیص الگو از دو بخش آموزش و شناخت تشکیل شده است.

آموزش با نشان دادن اشیاء فردی انجام می شود که نشان دهنده تعلق آنها به یک یا آن تصویر است. در نتیجه آموزش، سیستم تشخیص باید این توانایی را به دست آورد که با واکنش های یکسان به همه اشیاء یک تصویر و با واکنش های متفاوت به همه اشیاء تصاویر مختلف پاسخ دهد.

بسیار مهم است که فرآیند یادگیری فقط با نمایش تعداد محدودی از اشیاء بدون هیچ دستور دیگری تکمیل شود. موضوعات یادگیری می توانند تصاویر بصری یا پدیده های مختلف دنیای بیرونی و غیره باشند.

آموزش با فرآیند شناسایی اشیاء جدید دنبال می شود که عملکرد یک سیستم از قبل آموزش دیده را مشخص می کند. اتوماسیون این رویه ها مشکل آموزش تشخیص الگو است. در صورتی که شخص خودش حل کند یا اختراع کند و سپس قوانین طبقه بندی را بر روی رایانه تحمیل کند، مشکل شناسایی تا حدی حل می شود، زیرا شخص بخش اصلی و اصلی مشکل (آموزش) را بر عهده می گیرد.

مسئله آموزش تشخیص الگو هم از منظر کاربردی و هم از نظر بنیادی جالب است. از نقطه نظر کاربردی، حل این مشکل در درجه اول اهمیت دارد زیرا امکان خودکارسازی بسیاری از فرآیندهایی را که تاکنون فقط با فعالیت مغز زنده مرتبط بوده اند را باز می کند. اهمیت اساسی مسئله به این سؤال مربوط می شود که یک رایانه اصولاً چه کاری می تواند انجام دهد و چه کاری نمی تواند انجام دهد.

هنگام حل مسائل کنترلی با استفاده از روش های تشخیص الگو، از عبارت "وضعیت" به جای عبارت "تصویر" استفاده می شود. حالت - اشکال خاصی از نمایش مشخصات جریان اندازه گیری شده (آنی) جسم مشاهده شده؛ مجموعه ای از حالت ها وضعیت را تعیین می کند.

یک موقعیت معمولاً به مجموعه خاصی از حالات یک جسم پیچیده گفته می شود که هر کدام با ویژگی های یکسان یا مشابه شی مشخص می شوند. به عنوان مثال، اگر یک شیء کنترلی خاص به عنوان یک شیء مشاهده در نظر گرفته شود، آنگاه وضعیت چنین حالت هایی از این شی را ترکیب می کند که در آن اقدامات کنترلی یکسان باید اعمال شود. اگر موضوع مشاهده یک بازی باشد، آنگاه موقعیت همه حالات بازی را متحد می کند.

انتخاب توصیف اولیه اشیاء یکی از وظایف اصلی مسئله یادگیری تشخیص الگو است. اگر توصیف اولیه (فضای ویژگی) با موفقیت انتخاب شود، کار تشخیص ممکن است بی اهمیت باشد. برعکس، یک توصیف اولیه بد انتخاب شده می‌تواند منجر به پردازش بسیار دشوار بیشتر اطلاعات یا عدم وجود راه‌حل شود.

رویکردهای هندسی و ساختاری.

هر تصویری که در نتیجه مشاهده یک شی در حین آموزش یا امتحان ایجاد می شود، می تواند به عنوان یک بردار، و بنابراین به عنوان یک نقطه در برخی از فضای ویژگی ها نمایش داده شود.

اگر گفته شود که وقتی تصاویر نشان داده می شوند، می توان آنها را بدون ابهام به یکی از دو (یا چند) تصویر نسبت داد، در این صورت بیان می شود که در برخی فضاها دو یا چند منطقه وجود دارد که نقاط مشترکی ندارند و اینکه تصویر یک نقطه از این مناطق است. به هر نقطه در چنین ناحیه ای می توان یک نام اختصاص داد، یعنی نامی متناسب با تصویر تعیین کرد.

اجازه دهید فرآیند یادگیری الگو را بر حسب یک تصویر هندسی تفسیر کنیم و فعلاً خود را به تشخیص تنها دو تصویر محدود کنیم. فرض بر این است که از قبل فقط مشخص شده است که لازم است دو منطقه در فضایی از هم جدا شوند و فقط نقاطی از این مناطق نشان داده شده است. خود این مناطق از پیش تعیین شده نیستند، یعنی هیچ اطلاعاتی در مورد محل مرزهای آنها یا قوانینی برای تعیین اینکه آیا یک نقطه به یک منطقه خاص تعلق دارد وجود ندارد.

در حین آموزش، امتیازهایی که به صورت تصادفی از این مناطق انتخاب شده اند ارائه می شود و اطلاعاتی در مورد اینکه امتیاز ارائه شده متعلق به کدام منطقه است، ارائه می شود. هیچ اطلاعات اضافی در مورد این مناطق، یعنی محل محدوده آنها، در طول آموزش ارائه نمی شود.

هدف از آموزش یا ساختن سطحی است که نه تنها نقاط نشان داده شده در طول فرآیند تمرین، بلکه تمام نقاط دیگر متعلق به این نواحی را از هم جدا کند، یا ساخت سطوحی که این نواحی را محدود می کند به طوری که هر یک از آنها فقط حاوی نقاطی از یک تصویر به عبارت دیگر، هدف آموزش ساخت توابعی از بردارهای تصویر است که به عنوان مثال در تمام نقاط یک تصویر مثبت و در تمام نقاط تصویر دیگر منفی باشند.

با توجه به اینکه مناطق دارای نقاط مشترک نیستند، همیشه مجموعه کاملی از این عملکردهای جداکننده وجود دارد و در نتیجه آموزش باید یکی از آنها ساخته شود. اگر تصاویر ارائه شده متعلق به دو تصویر نیستند، بلکه به تعداد بیشتری از تصاویر تعلق دارند، کار این است که با استفاده از نقاط نشان داده شده در طول آموزش، سطحی بسازید که تمام مناطق مربوط به این تصاویر را از یکدیگر جدا کند.

این مشکل را می توان حل کرد، به عنوان مثال، با ساخت تابعی که مقدار یکسانی را روی نقاط هر یک از مناطق دریافت می کند، و روی نقاط مناطق مختلف، مقدار این تابع باید متفاوت باشد.

ممکن است به نظر برسد که دانستن چند نقطه از یک منطقه برای جداسازی کل منطقه کافی نیست. در واقع، می توان تعداد نامحدودی از مناطق مختلف را نشان داد که حاوی این نقاط هستند، و مهم نیست که سطح چگونه از آنها ساخته شده است، با برجسته کردن منطقه، همیشه می توان ناحیه دیگری را نشان داد که سطح را قطع می کند و در همان زمان. شامل نقاط نشان داده شده است.

با این حال، مشخص است که مشکل تقریب یک تابع از اطلاعات مربوط به آن در مجموعه‌ای از نقاط محدود به طور قابل‌توجهی باریک‌تر از کل مجموعه‌ای است که تابع بر روی آن داده می‌شود، و یک مشکل ریاضی رایج برای تقریب توابع است. البته حل چنین مشکلاتی مستلزم ایجاد محدودیت های خاصی در کلاس توابع مورد بررسی است و انتخاب این محدودیت ها بستگی به ماهیت اطلاعاتی دارد که معلم می تواند به فرآیند تدریس اضافه کند.

یکی از این سرنخ ها، فرضیه فشرده بودن تصاویر است.

در کنار تفسیر هندسی مسئله آموزش تشخیص الگو، رویکرد دیگری نیز وجود دارد که به آن ساختاری یا زبانی می گویند. بیایید رویکرد زبانی را با استفاده از مثال تشخیص تصویر بصری در نظر بگیریم.

ابتدا مجموعه ای از مفاهیم اولیه شناسایی می شود - قطعات معمولی موجود در تصویر و ویژگی های موقعیت نسبی قطعات (در سمت چپ، زیر، داخل و غیره). اینها مفاهیم اولیهیک فرهنگ لغت تشکیل دهید که به شما امکان می دهد عبارات منطقی مختلفی بسازید که گاهی اوقات جملات نامیده می شوند.

وظیفه این است که از تعداد زیادی عبارات که می توانند با استفاده از این مفاهیم ساخته شوند، مهمترین آنها را برای یک مورد خاص انتخاب کنیم. در مرحله بعد، با مشاهده تعداد محدود و احتمالاً کمی از اشیاء از هر تصویر، باید شرحی از این تصاویر بسازید.

توضیحات ساخته شده باید به قدری کامل باشند که این سوال را حل کنند که یک شی معین متعلق به کدام تصویر است. هنگام اجرای یک رویکرد زبانی، دو وظیفه مطرح می شود: وظیفه ساخت یک فرهنگ لغت اولیه، یعنی مجموعه ای از قطعات معمولی، و وظیفه ساخت قوانین توصیف از عناصر یک فرهنگ لغت معین.

در چارچوب تفسیر زبانی، قیاسی بین ساختار تصاویر و نحو زبان ترسیم می شود. تمایل به این قیاس به دلیل فرصت استفاده از دستگاه زبان شناسی ریاضی ایجاد شد، یعنی روش ها ماهیت نحوی دارند. استفاده از دستگاه زبان شناسی ریاضی برای توصیف ساختار تصاویر تنها پس از تقسیم تصاویر به اجزای سازنده آنها قابل استفاده است، یعنی کلماتی برای توصیف قطعات معمولی و روش های جستجو برای آنها ایجاد شده است.

پس از کار مقدماتی برای اطمینان از انتخاب کلمات، وظایف زبانی واقعی ایجاد می شود که شامل وظایف تجزیه دستوری خودکار توضیحات برای تشخیص تصویر است.

فرضیه فشردگی

اگر فرض کنیم که در طول فرآیند یادگیری، فضای ویژگی بر اساس طبقه بندی مورد نظر شکل می گیرد، می توان امیدوار بود که مشخصات فضای ویژگی خود خاصیتی را مشخص می کند که تحت تأثیر آن تصاویر در این فضا به راحتی از هم جدا می شوند. با توسعه کار در زمینه تشخیص الگو، همین امیدها بود که ظهور فرضیه فشردگی را تحریک کرد، که بیان می کند تصاویر با مجموعه های فشرده در فضای ویژگی مطابقت دارند.

منظور ما از یک مجموعه فشرده، خوشه های خاصی از نقاط در فضای تصویر است، با این فرض که بین این خوشه ها نادری وجود دارد که آنها را از هم جدا می کند. با این حال، این فرضیه همیشه نمی تواند به صورت تجربی تایید شود. اما آن دسته از کارهایی که فرضیه فشردگی برای آنها به خوبی انجام شده بود همیشه یک راه حل ساده پیدا می کردند و بالعکس، آن دسته از کارهایی که فرضیه برای آنها تأیید نشد یا اصلاً حل نشدند یا با سختی زیاد و درگیر شدن اطلاعات اضافی حل شدند.

فرضیه فشردگی به خودی خود نشانه ای از امکان حل رضایت بخش مشکلات تشخیص شده است.

فرمول بندی فرضیه فشردگی ما را به مفهوم یک تصویر انتزاعی نزدیک می کند. اگر مختصات فضا به صورت تصادفی انتخاب شود، تصاویر موجود در آن به صورت تصادفی توزیع می شوند. آنها در برخی از قسمت های فضا تراکم بیشتری نسبت به قسمت های دیگر خواهند داشت.

بیایید برخی از فضای انتخاب شده به طور تصادفی را یک تصویر انتزاعی بنامیم. در این فضای انتزاعی تقریباً به طور قطع مجموعه های فشرده ای از نقاط وجود خواهد داشت. بنابراین، مطابق با فرضیه فشردگی، مجموعه اشیایی که مجموعه های فشرده از نقاط در یک فضای انتزاعی با آنها مطابقت دارند، معمولاً تصاویر انتزاعی یک فضای معین نامیده می شوند.

آموزش و خودآموزی، سازگاری و آموزش.

اگر ممکن بود یک ویژگی جهانی خاص را مشاهده کنید که نه به ماهیت تصاویر و نه به تصاویر آنها بستگی ندارد، بلکه تنها توانایی جداسازی را تعیین می کند، در کنار کار معمول، یادگیری تشخیص با استفاده از اطلاعات مربوط به تعلق هر یک شیء از دنباله آموزش به یک یا آن تصویر، ممکن است یک مشکل طبقه بندی متفاوت ایجاد شود - به اصطلاح مشکل یادگیری بدون نظارت.

وظیفه ای از این نوع در سطح توصیفی را می توان به صورت زیر فرمول بندی کرد: سیستم به طور همزمان یا متوالی با اشیاء بدون هیچ نشانه ای از تعلق آنها به تصاویر ارائه می شود. دستگاه ورودی سیستم مجموعه ای از اشیاء را بر روی مجموعه ای از تصاویر نگاشت می کند و با استفاده از خاصیت تفکیک پذیری تصویر که از قبل در آن ذاتی است، طبقه بندی مستقلی از این اشیاء تولید می کند.

پس از چنین فرآیند خودآموزی، سیستم باید این توانایی را به دست آورد که نه تنها اشیاء آشنا (اشیاء از دنباله آموزش)، بلکه آنهایی را که قبلاً ارائه نشده بودند نیز تشخیص دهد. فرآیند خودآموزی یک سیستم خاص، فرآیندی است که در نتیجه این سیستم، بدون درخواست معلم، توانایی ایجاد واکنش های یکسان به تصاویر اشیاء یک تصویر و واکنش های متفاوت به تصاویر تصاویر مختلف را به دست می آورد. .

نقش معلم در این مورد فقط این است که ویژگی عینی را به سیستم پیشنهاد دهد که برای همه تصاویر یکسان است و توانایی تقسیم بسیاری از اشیاء به تصاویر را تعیین می کند.

معلوم می شود که چنین خاصیت عینی خاصیت فشردگی تصاویر است. موقعیت نسبی نقاط در فضای انتخاب شده از قبل حاوی اطلاعاتی در مورد نحوه تقسیم مجموعه نقاط است. این اطلاعات خاصیت تفکیک پذیری تصویر را تعیین می کند که برای سیستم برای خودآموزی تشخیص تصویر کافی است.

اکثر الگوریتم های خودآموز شناخته شده قادر به شناسایی تصاویر انتزاعی، یعنی مجموعه های فشرده در فضاهای معین هستند. تفاوت بین آنها در رسمی شدن مفهوم فشردگی نهفته است. با این حال، این امر ارزش الگوریتم‌های خودآموز را کاهش نمی‌دهد، و گاهی اوقات حتی افزایش می‌دهد، زیرا اغلب خود تصاویر از قبل توسط کسی تعریف نمی‌شوند و وظیفه تعیین این است که کدام زیرمجموعه‌های تصاویر در یک فضای معین، تصاویر را نشان می‌دهند.

نمونه‌ای از چنین بیان مسئله‌ای، تحقیقات جامعه‌شناختی است، زمانی که گروه‌هایی از مردم بر اساس مجموعه‌ای از پرسش‌ها شناسایی می‌شوند. در این درک از مسئله، الگوریتم‌های خودآموز اطلاعات ناشناخته قبلی در مورد وجود تصاویر در یک فضای معین تولید می‌کنند که هیچ‌کس قبلاً هیچ ایده‌ای درباره آن نداشت.

علاوه بر این، نتیجه خودآموزی، مناسب بودن فضای انتخاب شده برای یک کار یادگیری شناختی خاص را مشخص می کند. اگر تصاویر انتزاعی شناسایی شده در فضای خودآموز با تصاویر واقعی منطبق باشد، فضا به خوبی انتخاب شده است. هرچه تصاویر انتزاعی بیشتر با تصاویر واقعی متفاوت باشند، فضای انتخاب شده برای یک کار خاص ناخوشایندتر است.

یادگیری معمولاً به فرآیند ایجاد واکنش در یک سیستم خاص به گروه‌هایی از سیگنال‌های یکسان خارجی از طریق قرار گرفتن مکرر در معرض سیستم تنظیمات خارجی گفته می‌شود. مکانیسم ایجاد این تنظیم تقریباً به طور کامل الگوریتم یادگیری را تعیین می کند.

خودآموزی با آموزش تفاوت دارد زیرا در اینجا اطلاعات اضافی در مورد صحت واکنش به سیستم ارائه نمی شود.

انطباق فرآیند تغییر پارامترها و ساختار سیستم و احتمالاً اقدامات کنترلی بر اساس اطلاعات جاری به منظور دستیابی به وضعیت معینی از سیستم در شرایط عدم قطعیت اولیه و تغییر شرایط عملیاتی است.

یادگیری فرآیندی است که در نتیجه آن سیستم به تدریج توانایی پاسخگویی با واکنش های لازم به مجموعه خاصی از تأثیرات خارجی را به دست می آورد و سازگاری عبارت است از تنظیم پارامترها و ساختار سیستم به منظور دستیابی به کیفیت کنترل مورد نیاز. در مواجهه با تغییرات مداوم در شرایط خارجی.


سیستم های تشخیص گفتار

گفتار به عنوان ابزار اصلی ارتباط بین افراد عمل می کند و بنابراین ارتباط کلامی یکی از مهم ترین اجزای یک سیستم هوش مصنوعی به حساب می آید. تشخیص گفتار فرآیند تبدیل سیگنال صوتی تولید شده در خروجی میکروفون یا تلفن به دنباله ای از کلمات است.

کار دشوارتر، وظیفه درک گفتار است که شامل شناسایی معنای سیگنال صوتی است. در این حالت، خروجی زیرسیستم تشخیص گفتار به عنوان ورودی زیرسیستم درک گفتار عمل می کند. تشخیص خودکار گفتار (سیستم‌های ARR) یکی از حوزه‌های فناوری پردازش زبان طبیعی است.

تشخیص خودکار گفتار برای خودکار کردن ورود متن به رایانه، هنگام ایجاد پرسش‌های شفاهی به پایگاه‌های داده یا سیستم‌های بازیابی اطلاعات، هنگام تولید دستورات شفاهی به دستگاه‌های هوشمند مختلف استفاده می‌شود.

مفاهیم اساسی سیستم های تشخیص گفتار

سیستم های تشخیص گفتار با پارامترهای زیادی مشخص می شوند.

یکی از پارامترهای اصلی خطای تشخیص کلمه (WRO) است. این پارامتر نسبت تعداد کلمات ناشناخته به تعداد کل کلمات گفته شده است.

سایر پارامترهای مشخص کننده سیستم های تشخیص خودکار گفتار عبارتند از:

1) اندازه فرهنگ لغت،

2) حالت گفتار،

3) سبک گفتار

4) حوزه موضوعی،

5) اعتیاد به سخنران،

6) سطح سر و صدای آکوستیک،

7) کیفیت کانال ورودی.

بسته به اندازه فرهنگ لغت، سیستم های APP به سه گروه تقسیم می شوند:

با اندازه فرهنگ لغت کوچک (تا 100 کلمه)،

با اندازه متوسط ​​واژگان (از 100 کلمه تا چند هزار کلمه)،

با حجم دیکشنری بزرگ (بیش از 10000 کلمه).

حالت گفتار نحوه تلفظ کلمات و عبارات را مشخص می کند. سیستم های تشخیص متمایز هستند گفتار مداومو سیستم هایی که امکان تشخیص تنها کلمات جدا شده از گفتار را فراهم می کنند. حالت تشخیص کلمه ایزوله به گوینده نیاز دارد که برای مدت کوتاهی بین کلمات مکث کند.

با توجه به سبک گفتار، سیستم های APP به دو گروه تقسیم می شوند: سیستم های گفتاری قطعی و سیستم های گفتاری خود به خود.

در سیستم های تشخیص گفتار قطعی، گوینده گفتار را با رعایت قوانین دستوری زبان بازتولید می کند. گفتار خود به خود با نقض قوانین گرامری مشخص می شود و تشخیص آن دشوارتر است.

بسته به حوزه موضوعی، سیستم‌های APP متمایز می‌شوند که بر کاربرد در زمینه‌های بسیار تخصصی (مثلاً دسترسی به پایگاه‌های داده) و سیستم‌های APP با دامنه کاربرد نامحدود متمرکز هستند. مورد دوم به دایره لغات زیادی نیاز دارد و باید گفتار خود به خود را تشخیص دهد.

بسیاری از سیستم های تشخیص خودکار گفتار وابسته به بلندگو هستند. این شامل تنظیم از قبل سیستم با ویژگی های تلفظ یک بلندگوی خاص است.

پیچیدگی حل مشکل تشخیص گفتار با تنوع زیاد سیگنال های صوتی توضیح داده می شود. این تنوع به چند دلیل است:

اولاً با اجرای متفاوت واج ها - واحدهای اساسی ساختار صوتی یک زبان. تنوع در اجرای واج ها به دلیل تأثیر صداهای مجاور در جریان گفتار ایجاد می شود. سایه های تحقق واج تعیین شده توسط محیط صدا آلوفون نامیده می شود.

دوم، موقعیت و ویژگی های گیرنده های صوتی.

ثالثاً تغییر در پارامترهای گفتار همان گوینده که ناشی از وضعیت عاطفی متفاوت گوینده و سرعت گفتار اوست.

شکل اجزای اصلی سیستم تشخیص گفتار را نشان می دهد:

سیگنال گفتار دیجیتالی شده به یک واحد پیش پردازش فرستاده می شود، جایی که ویژگی های لازم برای تشخیص صدا استخراج می شود. تشخیص صدا اغلب با استفاده از مدل های شبکه عصبی مصنوعی انجام می شود. واحدهای صوتی انتخاب شده متعاقباً برای جستجوی دنباله ای از کلمات مورد استفاده قرار می گیرند که بیشترین تطابق را با سیگنال گفتار ورودی دارد.

جستجو برای دنباله ای از کلمات با استفاده از مدل های صوتی، واژگانی و زبان انجام می شود. پارامترهای مدل از داده های آموزشی بر اساس الگوریتم های یادگیری مناسب تعیین می شوند.

سنتز گفتار از متن. مفاهیم اساسی

در بسیاری از موارد، ایجاد سیستم های هوش مصنوعی با عناصر خود ارتباطی مستلزم خروجی پیام ها به صورت گفتاری است. شکل بلوک دیاگرام یک سیستم پرسش و پاسخ هوشمند با رابط گفتار را نشان می دهد:

تصویر 1.

یک قطعه از سخنرانی های اولگ را بگیرید

اجازه دهید ویژگی های رویکرد تجربی را با استفاده از مثال تشخیص بخشی از گفتار در نظر بگیریم. وظیفه تعیین برچسب برای کلمات جمله است: اسم، فعل، حرف اضافه، صفت و مانند آن. علاوه بر این، تعیین برخی از ویژگی های اضافی اسامی و افعال ضروری است. به عنوان مثال، برای یک اسم - یک عدد، و برای یک فعل - یک شکل. بیایید مشکل را رسمی کنیم.

بیایید یک جمله را به عنوان دنباله ای از کلمات تصور کنیم: W=w1 w2…wn، که در آن wn متغیرهای تصادفی هستند که هر کدام یکی از مقادیر ممکن متعلق به فرهنگ لغت زبان را دریافت می کنند. دنباله برچسب های اختصاص داده شده به کلمات یک جمله را می توان با دنباله X=x1 x2 ... xn نشان داد، که در آن xn متغیرهای تصادفی هستند که مقادیر آنها بر روی مجموعه برچسب های ممکن تعیین می شود.

سپس وظیفه تشخیص بخشی از گفتار یافتن محتمل‌ترین دنباله برچسب‌های x1، x2، ...، xn از یک دنباله معین از کلمات w1، w2، ...، wn است. به عبارت دیگر، لازم است دنباله‌ای از برچسب‌های X*=x1 x2 … xn را پیدا کنیم که حداکثر احتمال شرطی P(x1, x2, …, xn| w1 w2.. wn) را فراهم می‌کند.

اجازه دهید احتمال شرطی P(X| W) را در آن بازنویسی کنیم فرم زیر P(X| W)=P(X,W) / P(W). از آنجایی که یافتن حداکثر احتمال شرطی P(X,W) برای متغیر X لازم است، X*=arg x max P(X,W) را بدست می آوریم. احتمال مشترک P(X,W) را می توان به صورت حاصلضرب احتمالات شرطی نوشت: P(X,W)= حاصل ضرب u-1 به n از P(x i |x1,…,x i -1 , w1,…, wi -1 ) P(w i |x1,…,x i -1 , w1,…,w i -1). جستجوی مستقیم حداکثر یک عبارت داده شده کار دشواری است، زیرا برای مقادیر بزرگ n فضای جستجو بسیار بزرگ می شود. بنابراین، احتمالاتی که در این محصول نوشته شده است با احتمالات شرطی ساده تری تقریب می شوند: P(x i |x i -1) P(w i |w i -1). در این مورد، فرض می شود که مقدار برچسب x i فقط با برچسب قبلی x i -1 مرتبط است و به برچسب های قبلی بستگی ندارد و همچنین احتمال کلمه w i فقط با برچسب فعلی x i تعیین می شود. این مفروضات را فرض های مارکوف می نامند و برای حل مسئله از نظریه مدل های مارکوف استفاده می شود. با در نظر گرفتن فرضیات مارکوف، می توانیم بنویسیم:

X*= arg x1، …، xn max P i =1 n P(x i |x i -1) P(wi|wi-1)

جایی که احتمالات مشروط بر روی مجموعه ای از داده های آموزشی تخمین زده می شود

جستجو برای دنباله ای از برچسب های X* با استفاده از الگوریتم برنامه نویسی پویا Viterbi انجام می شود. الگوریتم Viterbi را می توان به عنوان گونه ای از الگوریتم جستجو در نمودار حالت در نظر گرفت، جایی که رئوس با برچسب های کلمه مطابقت دارند.

مشخصه که برای هر راس جاری مجموعه برچسب های فرزند همیشه یکسان است. علاوه بر این، برای هر رأس فرزند، مجموعه‌های رئوس والد نیز منطبق هستند. این با این واقعیت توضیح داده می شود که انتقال ها بر روی نمودار حالت با در نظر گرفتن تمام ترکیبات ممکن برچسب ها انجام می شود. مفروضات مارکوف ساده‌سازی قابل‌توجهی از مشکل تشخیص بخش‌های گفتار را ارائه می‌کند و در عین حال دقت بالایی در تعیین برچسب‌ها به کلمات حفظ می‌کند.

بنابراین، با 200 برچسب، دقت تخصیص تقریباً 97٪ است. برای مدت طولانیتجزیه و تحلیل امپریالیستی با استفاده از گرامرهای تصادفی بدون زمینه انجام شد. با این حال، آنها یک نقص قابل توجه دارند. در این واقعیت نهفته است که تجزیه گرامری های مختلف را می توان احتمالات یکسانی نسبت داد. این به این دلیل رخ می دهد که احتمال تجزیه به عنوان حاصلضرب احتمالات قوانین موجود در تجزیه نشان داده می شود. اگر در طول تجزیه و تحلیل از قواعد مختلفی استفاده شود که با احتمالات یکسان مشخص می شود ، این امر باعث ایجاد مشکل مشخص شده می شود. بهترین نتایج با دستور زبانی به دست می آید که واژگان زبان را در نظر می گیرد.

در این مورد، قوانین شامل اطلاعات واژگانی لازم است که مقادیر احتمال متفاوتی را برای یک قانون در محیط‌های واژگانی مختلف ارائه می‌کند. تجزیه امپریال بیشتر شبیه به تشخیص الگو است تا تجزیه سنتی در معنای کلاسیک آن.

مطالعات تطبیقی ​​نشان داده است که دقت تجزیه امپریالیستی در کاربردهای زبان طبیعی بالاتر از تجزیه سنتی است.

بررسی روش های تشخیص الگوی موجود

L.P. پوپووا ، و در مورد. داتیف

توانایی "تشخیص" به عنوان دارایی اساسی انسان و سایر موجودات زنده محسوب می شود. تشخیص الگو شاخه‌ای از سایبرنتیک است که اصول و روش‌های طبقه‌بندی و همچنین شناسایی اشیاء، پدیده‌ها، فرآیندها، سیگنال‌ها، موقعیت‌ها را توسعه می‌دهد - همه آن اشیایی که می‌توان آنها را با مجموعه‌ای محدود از برخی علائم یا ویژگی‌ها توصیف کرد. .

تصویر توصیفی از یک شی است. تصاویر دارای ویژگی مشخصه ای هستند که خود را در این واقعیت نشان می دهد که آشنایی با تعداد محدودی از پدیده ها از همان مجموعه امکان تشخیص تعداد زیادی از نمایندگان آن را به دلخواه می دهد.

در تئوری تشخیص الگو، دو جهت اصلی قابل تشخیص است:

    مطالعه توانایی های تشخیص انسان و سایر موجودات زنده.

    توسعه تئوری و روش‌هایی برای ساخت دستگاه‌هایی که برای حل مشکلات فردی تشخیص الگو در زمینه‌های کاربردی خاص طراحی شده‌اند.

علاوه بر این، مقاله مشکلات، اصول و روش های اجرای سیستم های تشخیص تصویر مرتبط با توسعه جهت دوم را شرح می دهد. در بخش دوم مقاله به روش‌های شبکه عصبی تشخیص الگو می‌پردازیم که می‌توان آن را به جهت اول تئوری تشخیص الگو نسبت داد.

مشکلات ساخت سیستم های تشخیص تصویر

مشکلاتی که هنگام ساختن سیستم‌های تشخیص خودکار الگوی ایجاد می‌شوند معمولاً می‌توانند در چندین حوزه اصلی طبقه‌بندی شوند. اولین مورد مربوط به ارائه داده های اولیه به دست آمده به عنوان نتایج اندازه گیری برای شی مورد شناسایی است. مشکل حساسیت. هر مقدار اندازه گیری شده یک ویژگی خاص از یک تصویر یا شی است. برای مثال، فرض کنید که تصاویر نویسه های الفبایی هستند. در این مورد، یک شبکیه اندازه گیری، مشابه آنچه در شکل 1(a) نشان داده شده است، می تواند باشد. اگر شبکیه از n عنصر تشکیل شده باشد، نتایج اندازه گیری را می توان به عنوان بردار اندازه گیری یا بردار تصویر نشان داد. ,

جایی که هر عنصر xi، به عنوان مثال، مقدار 1 را می گیرد اگر تصویر یک نماد از سلول i-امین شبکیه عبور کند، و مقدار 0 را در غیر این صورت.

بیایید به شکل نگاه کنیم. 2 (ب). در این حالت، تصاویر توابع پیوسته (مانند سیگنال های صوتی) از متغیر t هستند. اگر اندازه گیری مقادیر تابع در نقاط گسسته t1،t2، ...، tn انجام شود، می توان بردار تصویر را با گرفتن x1=f(t1)،x2=f(t2)،... ، xn = f(tn).

شکل 1. اندازه گیری شبکیه چشم

دومین مشکل تشخیص الگو به انتخاب مربوط می شود ویژگی های مشخصهیا خواص از داده های منبع به دست آمده و کاهش ابعاد بردارهای تصویر. این مشکل اغلب به عنوان یک مشکل تعریف می شود پیش پردازش و انتخاب ویژگی.

ویژگی‌های یک کلاس از تصاویر، ویژگی‌های مشخصه مشترک همه تصاویر یک کلاس مشخص هستند. ویژگی هایی که تفاوت بین کلاس های فردی را مشخص می کنند را می توان به عنوان ویژگی های بین طبقاتی تفسیر کرد. ویژگی‌های درون‌کلاسی، مشترک برای همه کلاس‌های مورد بررسی، اطلاعات مفیدی را از نقطه نظر شناسایی حمل نمی‌کنند و ممکن است در نظر گرفته نشوند. انتخاب ویژگی یکی از وظایف مهم مرتبط با ساخت سیستم های تشخیص محسوب می شود. اگر نتایج اندازه گیری به ما اجازه دهد مجموعه کاملی از ویژگی های متمایز را برای همه کلاس ها به دست آوریم، تشخیص و طبقه بندی واقعی تصاویر هیچ مشکل خاصی ایجاد نخواهد کرد. سپس تشخیص خودکار به یک فرآیند تطبیق ساده یا رویه هایی مانند اسکن جدول کاهش می یابد. با این حال، در اکثر مشکلات تشخیص عملی، تعیین مجموعه کامل از ویژگی های متمایز بسیار دشوار است، اگر نگوییم غیرممکن است. معمولاً می توان برخی از ویژگی های متمایز را از داده های اصلی استخراج کرد و از آنها برای ساده سازی فرآیند تشخیص خودکار الگو استفاده کرد. به ویژه، ابعاد بردارهای اندازه گیری را می توان با استفاده از تبدیل هایی که از دست دادن اطلاعات را به حداقل می رساند، کاهش داد.

سومین مشکل مرتبط با ساخت سیستم های تشخیص الگو، یافتن رویه های تصمیم گیری بهینه لازم برای شناسایی و طبقه بندی است. هنگامی که داده‌های جمع‌آوری‌شده درباره الگوهایی که باید شناسایی شوند با نقاط یا بردارهای اندازه‌گیری در فضای الگو نشان داده شد، به ماشین اجازه دهید بفهمد که این داده‌ها با کدام دسته از الگوها مطابقت دارند. اجازه دهید ماشین طوری طراحی شود که کلاس‌های M را که با w1، w2، ... ...، wm مشخص می‌شوند، تشخیص دهد. در این حالت می توان فضای تصویر را متشکل از مناطق M در نظر گرفت که هر کدام حاوی نقاط مربوط به تصاویر یک کلاس است. در این مورد، وظیفه تشخیص را می توان به عنوان ساخت مرزهای مناطق تصمیم گیری جداکننده کلاس های M بر اساس بردارهای اندازه گیری ثبت شده در نظر گرفت. اجازه دهید این مرزها، برای مثال، با توابع تصمیم d1(x)، d2(x)،...، dm(x) تعریف شوند. این توابع که توابع متمایز نیز نامیده می شوند، توابع اسکالر و تک مقداری تصویر x هستند. اگر di (x) > dj (x) باشد، تصویر x متعلق به کلاس w1 است. به عبارت دیگر، اگر i-ام تعیین کنندهتابع di(x) دارد بالاترین ارزش، سپس یک تصویر معنادار از چنین طرح طبقه بندی خودکار بر اساس اجرای فرآیند تصمیم گیری در شکل نشان داده شده است. 2 (در نمودار "GR" مولد توابع تصمیم گیری است).

شکل 2. طرح طبقه بندی خودکار.

توابع تعیین کننده را می توان به روش های مختلفی به دست آورد. در مواردی که اطلاعات پیشینی کاملی در مورد تصاویر شناسایی شده وجود دارد، عملکردهای تصمیم را می توان دقیقاً بر اساس این اطلاعات تعیین کرد. اگر فقط اطلاعات کیفی در مورد تصاویر موجود باشد، می توان فرضیات معقولی را در مورد شکل توابع تعیین کننده انجام داد. در مورد دوم، مرزهای مناطق راه حل ممکن است به طور قابل توجهی از مرزهای واقعی منحرف شوند، و بنابراین لازم است سیستمی ایجاد شود که قادر به دستیابی به یک نتیجه رضایت بخش از طریق یک سری تنظیمات متوالی باشد.

اشیاء (تصاویر) که با استفاده از یک سیستم تشخیص خودکار الگوی شناسایی و طبقه بندی می شوند باید دارای مجموعه ای از ویژگی های قابل اندازه گیری باشند. هنگامی که برای یک گروه کامل از تصاویر، نتایج اندازه‌گیری‌های مربوطه مشابه هستند، این اشیاء متعلق به یک کلاس در نظر گرفته می‌شوند. هدف سیستم تشخیص الگو این است که بر اساس اطلاعات جمع‌آوری‌شده، دسته‌ای از اشیاء را با ویژگی‌های مشابه اندازه‌گیری شده در اشیاء شناسایی شده تعیین کند. صحت تشخیص به میزان اطلاعات متمایز موجود در ویژگی های اندازه گیری شده و اثربخشی استفاده از این اطلاعات بستگی دارد.

      روش های اساسی برای پیاده سازی سیستم های تشخیص الگو

تشخیص الگو به مسئله ساخت و اعمال عملیات رسمی بر روی نمایش عددی یا نمادین اشیاء در دنیای واقعی یا ایده آل اشاره دارد که نتایج آن منعکس کننده روابط هم ارزی بین این اشیا است. روابط هم ارزی تعلق اشیاء ارزیابی شده به هر کلاسی را بیان می کند که به عنوان واحدهای معنایی مستقل در نظر گرفته می شود.

هنگام ساخت الگوریتم‌های تشخیص، کلاس‌های هم ارزی را می‌توان توسط محققی که از ایده‌های معنی‌دار خود استفاده می‌کند یا از اطلاعات اضافی خارجی درباره شباهت‌ها و تفاوت‌های اشیاء در زمینه مسئله در حال حل استفاده می‌کند، مشخص کرد. سپس آنها در مورد "تشخیص با یک معلم" صحبت می کنند. در غیر این صورت، یعنی هنگامی که یک سیستم خودکار یک مشکل طبقه بندی را بدون استفاده از اطلاعات آموزشی خارجی حل می کند، ما از طبقه بندی خودکار یا "تشخیص بدون نظارت" صحبت می کنیم. اکثر الگوریتم‌های تشخیص الگو به استفاده از قدرت محاسباتی بسیار قابل توجهی نیاز دارند که تنها توسط فناوری کامپیوتری با کارایی بالا قابل ارائه است.

نویسندگان مختلف (Yu.L. Barabash، V.I. Vasiliev، A.L. Gorelik، V.A. Skripkin، R. Duda، P. Hart، L.T. Kuzin، F.I. Peregudov، F.P. Tarasenko، Temnikov F.E.، Afonin V.A.، R.Tu.، J. V. گونزالس، پی وینستون، ک. فو، یا.ز. تسیپکین، و غیره) گونه‌شناسی متفاوتی از تشخیص الگوی روش‌ها ارائه می‌دهند. برخی از نویسندگان بین روش‌های پارامتریک، ناپارامتریک و اکتشافی تمایز قائل می‌شوند، برخی دیگر گروه‌هایی از روش‌ها را بر اساس مکاتب و روندهای تاریخی در این زمینه شناسایی می‌کنند.

در عین حال، گونه‌شناسی‌های شناخته‌شده یک ویژگی بسیار مهم را در نظر نمی‌گیرند، که نشان‌دهنده ویژگی روش بازنمایی دانش در مورد یک حوزه موضوعی با استفاده از هر الگوریتم رسمی تشخیص الگوی است. D.A. Pospelov دو روش اصلی ارائه دانش را مشخص می کند:

    نمایش عمدی - در قالب نموداری از ارتباطات بین ویژگی ها (ویژگی ها).

    بازنمایی گسترده - با استفاده از حقایق خاص (اشیاء، مثال ها).

باید توجه داشت که وجود دقیقاً این دو گروه از روش‌های تشخیص: آنهایی که با نشانه‌ها و آنهایی که با اشیاء عمل می‌کنند، عمیقاً طبیعی است. از این منظر، هیچ یک از این روش ها، جدا از دیگری، به ما اجازه نمی دهد تا بازتاب مناسبی از حوزه موضوعی را شکل دهیم. بین این روش‌ها رابطه مکملی به معنای N. Bohr وجود دارد، بنابراین سیستم‌های تشخیص امیدوارکننده باید اجرای هر دوی این روش‌ها و نه تنها یکی از آنها را فراهم کنند.

بنابراین، طبقه‌بندی روش‌های تشخیص پیشنهاد شده توسط D.A. Pospelov بر اساس الگوهای اساسی زیربنای روش شناخت انسان به طور کلی است که آن را در یک موقعیت کاملاً ویژه (ممتاز) در مقایسه با سایر طبقه‌بندی‌ها قرار می‌دهد که در این زمینه سبک‌تر و سبک‌تر به نظر می‌رسند. ساختگی.

روش های عمدی

یکی از ویژگی‌های متمایز روش‌های intensional این است که آنها از ویژگی‌های مختلف ویژگی‌ها و اتصالات آنها به عنوان عناصر عملیات هنگام ساخت و اعمال الگوریتم‌های تشخیص الگو استفاده می‌کنند. چنین عناصری می توانند مقادیر منفرد یا فواصل مقادیر ویژگی، مقادیر متوسط ​​و واریانس ها، ماتریس های رابطه ویژگی و غیره باشند که اقدامات بر روی آنها انجام می شود و به شکل تحلیلی یا سازنده بیان می شود. در عین حال، اشیاء در این روش ها به عنوان واحدهای اطلاعاتی یکپارچه در نظر گرفته نمی شوند، بلکه به عنوان شاخص هایی برای ارزیابی تعامل و رفتار ویژگی های آنها عمل می کنند.

گروه روش‌های فشرده برای تشخیص الگو گسترده است و تقسیم آن به زیر کلاس‌ها تا حدی مشروط است:

- روش های مبتنی بر تخمین تراکم توزیع مقادیر ویژگی

- روش هایی مبتنی بر فرضیات مربوط به کلاس توابع تصمیم گیری

- روش های منطقی

- روش های زبانی (ساختاری).

روش‌های مبتنی بر برآورد چگالی توزیع مقادیر ویژگی.این روش‌های تشخیص الگو از نظریه کلاسیک تصمیم‌گیری‌های آماری وام گرفته شده‌اند، که در آن موضوعات مورد مطالعه به‌عنوان تحقق یک متغیر تصادفی چندبعدی در نظر گرفته می‌شوند که طبق برخی قوانین در فضای ویژگی توزیع شده است. آنها بر اساس یک طرح تصمیم گیری بیزی هستند که به احتمالات پیشینی اشیاء متعلق به یک کلاس شناخته شده خاص و چگالی توزیع شرطی مقادیر بردار ویژگی متوسل می شوند. این روش ها به تعیین نسبت احتمال در مناطق مختلف فضای ویژگی چند بعدی خلاصه می شوند.

گروهی از روش‌های مبتنی بر تخمین چگالی توزیع مقادیر ویژگی‌ها مستقیماً با روش‌های تجزیه و تحلیل متمایز مرتبط هستند. رویکرد بیزی به تصمیم‌گیری یکی از پیشرفته‌ترین روش‌های به اصطلاح پارامتریک در آمار مدرن است که بیان تحلیلی قانون توزیع (در این مورد، قانون عادی) شناخته شده و تنها تعداد کمی از پارامترها ( بردارهای مقادیر متوسط ​​و ماتریس های کوواریانس) باید برآورد شوند.

این گروه همچنین شامل روش محاسبه نسبت احتمال برای مشخصه های مستقل است. این روش، به استثنای فرض استقلال ویژگی ها (که در واقعیت تقریباً هرگز محقق نمی شود)، مستلزم آگاهی از شکل عملکردی قانون توزیع نیست. می توان آن را به عنوان یک روش ناپارامتریک طبقه بندی کرد.

سایر روش‌های ناپارامتریک که در مواقعی که شکل منحنی چگالی توزیع نامشخص است و اصلاً نمی‌توان در مورد ماهیت آن فرضی داشت، استفاده می‌شود، جایگاه ویژه‌ای را اشغال می‌کند. اینها شامل روش شناخته شده هیستوگرام های چند بعدی، روش "k-نزدیکترین همسایگان"، روش فاصله اقلیدسی، روش توابع بالقوه و غیره است که یک تعمیم آن روشی است به نام "برآوردهای پارزن". این روش ها به طور رسمی با اشیاء به عنوان ساختارهای یکپارچه عمل می کنند، اما بسته به نوع وظیفه تشخیص، می توانند به دو شکل عمدی و کششی عمل کنند.

روش‌های ناپارامتریک تعداد نسبی اشیایی را که در حجم‌های چند بعدی قرار می‌گیرند تجزیه و تحلیل می‌کنند و از توابع مختلف فاصله بین اشیاء در مجموعه آموزشی و اشیاء شناسایی شده استفاده می‌کنند. برای ویژگی های کمی، زمانی که تعداد آنها بسیار کمتر از اندازه نمونه باشد، عملیات با اشیا نقش میانی در تخمین چگالی توزیع محلی احتمالات شرطی ایفا می کند و اشیا بار معنایی واحدهای اطلاعاتی مستقل را حمل نمی کنند. در عین حال، وقتی تعداد ویژگی‌ها متناسب یا بیشتر از تعداد اشیاء مورد مطالعه باشد، و ویژگی‌ها ماهیتی کیفی یا دوگانه داشته باشند، در این صورت نمی‌توان از هیچ گونه تخمین محلی از چگالی توزیع احتمال صحبت کرد. در این حالت، اشیاء در روش‌های ناپارامتریک مشخص شده به عنوان واحدهای اطلاعاتی مستقل (واقعیت‌های تجربی یکپارچه) در نظر گرفته می‌شوند و این روش‌ها معنای ارزیابی شباهت‌ها و تفاوت‌های اشیاء مورد مطالعه را به دست می‌آورند.

بنابراین، عملیات تکنولوژیکی یکسان روش‌های ناپارامتریک، بسته به شرایط مسئله، یا تخمین‌های محلی چگالی توزیع احتمال مقادیر ویژگی‌ها یا تخمین‌های شباهت و تفاوت اشیاء را معنا می‌کند.

در زمینه بازنمایی شدید دانش، سمت اول روش های ناپارامتریک، به عنوان تخمین تراکم توزیع احتمال، در اینجا در نظر گرفته می شود. بسیاری از نویسندگان خاطرنشان می کنند که در عمل، روش های ناپارامتریک مانند برآوردگرهای Parzen به خوبی کار می کنند. مشکلات اصلی در استفاده از این روش‌ها، نیاز به یادآوری کل نمونه آموزشی برای محاسبه تخمین‌های چگالی توزیع احتمال محلی و حساسیت بالا به عدم نمایش نمونه آموزشی است.

روش های مبتنی بر فرضیات مربوط به کلاس توابع تصمیم گیری.در این گروه از روش ها، شکل کلی تابع تصمیم شناخته شده و عملکردی کیفیت آن مشخص می شود. بر اساس این تابع، بهترین تقریب تابع تصمیم در دنباله آموزش جستجو می شود. رایج ترین آنها نمایش توابع تصمیم در قالب چند جمله ای های غیرخطی خطی و تعمیم یافته است. عملکرد کیفیت قانون تصمیم معمولاً با خطای طبقه بندی همراه است.

مزیت اصلی روش های مبتنی بر فرضیات مربوط به کلاس توابع تصمیم گیری، وضوح فرمول ریاضی مسئله تشخیص به عنوان مشکل جستجوی یک اکسترموم است. راه حل این مشکل اغلب با استفاده از برخی از الگوریتم های گرادیان به دست می آید. تنوع روش ها در این گروه با طیف گسترده ای از عملکردهای کیفیت قانون تصمیم گیری و الگوریتم های جستجوی اکسترموم مورد استفاده توضیح داده می شود. تعمیم الگوریتم های مورد بررسی که به طور خاص شامل الگوریتم نیوتن، الگوریتم های نوع پرسپترون و غیره است، روش تقریب تصادفی است. بر خلاف روش‌های تشخیص پارامتریک، موفقیت استفاده از این گروه از روش‌ها چندان به تناقض بین ایده‌های نظری در مورد قوانین توزیع اشیاء در فضای ویژگی و واقعیت تجربی بستگی ندارد. همه عملیات تابع یک هدف اصلی هستند - یافتن حداکثر عملکرد کیفیت قانون تصمیم. در عین حال، نتایج روش های پارامتریک و در نظر گرفته شده ممکن است مشابه باشند. همانطور که در بالا نشان داده شد، روش‌های پارامتری برای توزیع نرمال اشیاء در کلاس‌های مختلف با ماتریس‌های کوواریانس برابر منجر به توابع تصمیم‌گیری خطی می‌شوند. همچنین توجه داشته باشید که الگوریتم‌های انتخاب ویژگی‌های اطلاعاتی در مدل‌های تشخیصی خطی را می‌توان به عنوان نسخه‌های خاصی از الگوریتم‌های گرادیان برای جستجوی اکسترموم‌ها تفسیر کرد.

قابلیت‌های الگوریتم‌های جستجوی اکستریم شیب، به‌ویژه در گروه قوانین تصمیم‌گیری خطی، به خوبی مورد مطالعه قرار گرفته‌اند. همگرایی این الگوریتم‌ها تنها برای مواردی ثابت شده است که کلاس‌های شی شناسایی شده در فضای ویژگی توسط ساختارهای هندسی فشرده نمایش داده می‌شوند. با این حال، تمایل به دستیابی به کیفیت کافی از قاعده تصمیم اغلب می‌تواند با کمک الگوریتم‌هایی که اثبات ریاضی دقیقی از همگرایی راه‌حل به یک افراط جهانی ندارند، ارضا شود.

چنین الگوریتم هایی شامل گروه بزرگرویه های برنامه نویسی اکتشافی نشان دهنده جهت مدل سازی تکاملی است. مدلسازی تکاملی یک روش بیونیک است که از طبیعت به عاریت گرفته شده است. این مبتنی بر استفاده از مکانیسم های شناخته شده تکامل به منظور جایگزینی فرآیند مدل سازی معنادار یک شی پیچیده با مدل سازی پدیدارشناختی تکامل آن است.

یک نماینده شناخته شده مدلسازی تکاملی در تشخیص الگو، روش حسابداری گروهی آرگومان ها (MGUA) است. اساس GMDH اصل خود سازماندهی است و الگوریتم های GMDH طرح انتخاب انبوه را بازتولید می کنند. در الگوریتم های GMDH، اعضای یک چند جمله ای تعمیم یافته به روش خاصی سنتز و انتخاب می شوند که اغلب به آن چند جمله ای کولموگروف-گابور می گویند. این ترکیب و انتخاب با افزایش پیچیدگی انجام می شود و نمی توان از قبل پیش بینی کرد که چند جمله ای تعمیم یافته چه شکل نهایی خواهد داشت. اول، معمولاً ترکیب‌های زوجی ساده از ویژگی‌های اولیه در نظر گرفته می‌شوند، که از آنها معادلات توابع تصمیم جمع‌آوری می‌شوند، معمولاً بالاتر از مرتبه دوم نیستند. هر معادله به عنوان یک تابع تصمیم گیری مستقل تجزیه و تحلیل می شود و مقادیر پارامترهای معادلات کامپایل شده به روشی با استفاده از نمونه آموزشی پیدا می شود. سپس، از مجموعه توابع تصمیم گیری حاصل، برخی از بهترین ها انتخاب می شوند. کیفیت توابع تصمیم گیری فردی در یک نمونه کنترلی (اعتبارسنجی) بررسی می شود که گاهی اوقات به آن اصل اضافه خارجی می گویند. توابع تصمیم جزئی منتخب بیشتر به عنوان متغیرهای میانی در نظر گرفته می شوند که به عنوان آرگومان های اولیه برای ترکیب مشابه توابع تصمیم گیری جدید و غیره عمل می کنند. روند چنین ترکیب سلسله مراتبی تا رسیدن به حد اعلای معیار کیفیت تابع تصمیم ادامه می یابد، که در عمل به آن می رسد. در بدتر شدن این کیفیت در هنگام تلاش برای افزایش بیشتر ترتیب عبارات چند جمله ای نسبت به ویژگی های اصلی آشکار می شود.

اصل خودسازماندهی زیربنای GMDH خودسازماندهی اکتشافی نامیده می شود، زیرا کل فرآیند مبتنی بر معرفی اضافات خارجی است که به صورت اکتشافی انتخاب شده اند. نتیجه یک تصمیم ممکن است به طور قابل توجهی به این اکتشافی ها بستگی داشته باشد. مدل تشخیصی به دست آمده بستگی به نحوه تقسیم اشیاء به نمونه های آموزشی و آزمایشی، نحوه تعیین معیار کیفیت تشخیص، تعداد متغیرهایی دارد که به ردیف انتخاب بعدی منتقل می شوند و غیره.

ویژگی‌های نشان‌داده‌شده الگوریتم‌های GMDH نیز مشخصه سایر رویکردهای مدل‌سازی تکاملی است. اما اجازه دهید در اینجا یک جنبه دیگر از روش های مورد بررسی را متذکر شویم. این جوهر معنادار آنهاست. با استفاده از روش‌های مبتنی بر فرضیات مربوط به کلاس توابع تصمیم‌گیری (تکاملی و گرادیان)، می‌توان مدل‌های تشخیصی با پیچیدگی بالا ساخت و نتایج عملاً قابل قبولی به دست آورد. در عین حال، دستیابی به اهداف عملی در این مورد با استخراج دانش جدید در مورد ماهیت اشیاء شناخته شده همراه نیست. امکان استخراج این دانش، به ویژه دانش در مورد مکانیسم های تعامل ویژگی ها (ویژگی ها)، در اینجا اساساً توسط ساختار داده شده چنین تعاملی که در شکل انتخابی توابع تصمیم ثابت شده است، محدود شده است. بنابراین، بیشترین چیزی که پس از ساخت یک مدل تشخیصی خاص می‌توان گفت، فهرست کردن ترکیبی از ویژگی‌ها و خود ویژگی‌هایی است که در مدل حاصل آمده است. اما معنای ترکیب هایی که ماهیت و ساختار توزیع اشیاء مورد مطالعه را منعکس می کنند، اغلب در چارچوب این رویکرد فاش نشده باقی می ماند.

روش های بولی. روش‌های منطقی تشخیص الگو بر اساس دستگاه جبر منطقی است و به فرد اجازه می‌دهد تا با اطلاعات موجود نه تنها در ویژگی‌های فردی، بلکه در ترکیبی از مقادیر ویژگی‌ها نیز کار کند. در این روش ها مقادیر هر صفت به عنوان رویدادهای ابتدایی در نظر گرفته می شوند.

در بسیار نمای کلیروش های منطقی را می توان به عنوان یک نوع جستجو از طریق یک نمونه آموزشی از الگوهای منطقی و تشکیل سیستمی از قواعد تصمیم گیری منطقی (به عنوان مثال، در قالب پیوندهای رویدادهای ابتدایی) که هر یک وزن خاص خود را دارند، مشخص کرد. گروه روش های منطقی متنوع است و شامل روش هایی با پیچیدگی و عمق تحلیل متفاوت است. برای ویژگی های دوگانه (بولی)، به اصطلاح طبقه بندی کننده های درخت مانند، روش تست بن بست، الگوریتم "Bark" و دیگران محبوب هستند. روش‌های پیچیده‌تر مبتنی بر رسمی‌سازی روش‌های استقرایی D.S. Mill است. رسمی‌سازی با ساختن یک نظریه شبه بدیهی انجام می‌شود و بر اساس منطق چند مرتبه‌ای چند مرتبه‌ای با کمی‌کننده‌ها بر روی چند تا با طول متغیر است.

الگوریتم "Kora" مانند سایر روش های منطقی تشخیص الگو، کاملاً کار فشرده است، زیرا هنگام انتخاب حروف ربط به جستجوی کامل نیاز است. بنابراین، هنگام استفاده از روش‌های منطقی، سازماندهی کارآمد فرآیند محاسباتی مطالبات زیادی را به همراه دارد و این روش‌ها با ابعاد نسبتاً کوچک فضای ویژگی و فقط در رایانه‌های قدرتمند به خوبی کار می‌کنند.

روش های زبانی ( نحوی یا ساختاری )روش‌های زبان‌شناختی تشخیص الگو مبتنی بر استفاده از دستور زبان‌های خاصی است که زبان‌ها را تولید می‌کنند، که با کمک آن می‌توان مجموعه‌ای از ویژگی‌های اشیاء شناسایی شده را توصیف کرد. گرامر به قوانین ساخت اشیاء از این عناصر غیر مشتق شده اشاره دارد.

اگر توصیف تصاویر با استفاده از عناصر غیر مشتق (عنوان فرعی) و روابط آنها انجام شود، سپس از یک رویکرد زبانی یا نحوی با استفاده از اصل عمومیت ویژگی ها برای ساخت سیستم های تشخیص خودکار استفاده می شود. یک تصویر را می توان با استفاده از ساختار سلسله مراتبی تصاویر فرعی، مشابه ساختار نحوی زبان توصیف کرد. این شرایط استفاده از نظریه زبان های رسمی را هنگام حل مشکلات تشخیص تصویر ممکن می سازد. گرامر تصویر شامل مجموعه های محدودی از عناصر به نام متغیرها، عناصر غیر مشتق و قوانین جایگزینی فرض می شود. ماهیت قوانین جایگزینی نوع دستور زبان را تعیین می کند. از جمله گرامرهایی که بیشتر مورد مطالعه قرار گرفته‌اند، می‌توان به گرامرهای منظم، بی‌متن و دستوری اجزای مستقیم اشاره کرد. از نکات کلیدی این رویکرد می توان به انتخاب عناصر غیر مشتق تصویر، ترکیب این عناصر و روابط متصل کننده آنها به گرامرهای تصویر و در نهایت اجرای فرآیندهای تحلیل و شناسایی به زبان مناسب اشاره کرد. این رویکرد به ویژه هنگام کار با تصاویری که یا با اندازه‌گیری‌های عددی قابل توصیف نیستند یا آنقدر پیچیده هستند که ویژگی‌های محلی آن‌ها قابل شناسایی نیست و باید به ویژگی‌های جهانی اشیاء روی آورد، مفید است.

به عنوان مثال، E.A. بوتاکوف، V.I. استروفسکی، I.L. Fadeev ساختار سیستم زیر را برای پردازش تصویر پیشنهاد می کند (شکل 3)، با استفاده از یک رویکرد زبانی، که در آن هر یک از بلوک های عملکردی یک نرم افزار (ریز برنامه) پیچیده (ماژول) است که توابع مربوطه را پیاده سازی می کند.

شکل 3. بلوک دیاگرام دستگاه تشخیص

تلاش برای به کارگیری روش های زبان شناسی ریاضی در مسئله تجزیه و تحلیل تصویر منجر به نیاز به حل تعدادی از مسائل مرتبط با نگاشت ساختار دو بعدی یک تصویر بر روی زنجیره های تک بعدی یک زبان رسمی می شود.

روش های گسترشی

در روش های این گروه، بر خلاف جهت سنجی، به هر شی مورد مطالعه، کم و بیش، یک مستقل داده می شود. ارزش تشخیصی. در هسته خود، این روش ها نزدیک به رویکرد بالینی هستند، که افراد را نه به عنوان زنجیره ای از اشیاء رتبه بندی شده توسط یک شاخص یا دیگری، بلکه به عنوان سیستم های یکپارچه در نظر می گیرد، که هر کدام فردی هستند و ارزش تشخیصی خاصی دارند. چنین نگرش دقیقی نسبت به موضوعات تحقیق اجازه حذف یا از دست دادن اطلاعات در مورد هر شی منفرد را نمی دهد، که در هنگام استفاده از روش های جهت گیری شدید که از اشیاء فقط برای شناسایی و ثبت الگوهای رفتاری ویژگی های آنها استفاده می شود، اتفاق می افتد.

عملیات اصلی در تشخیص الگو با استفاده از روش های مورد بحث، عملیات تعیین شباهت ها و تفاوت های اشیاء است. اشیاء در گروه مشخص شده از روش ها نقش سوابق تشخیصی را بازی می کنند. علاوه بر این، بسته به شرایط یک کار خاص، نقش یک سابقه فردی می‌تواند در وسیع‌ترین محدودیت‌ها متفاوت باشد: از مشارکت اصلی و تعیین‌کننده تا مشارکت بسیار غیرمستقیم در فرآیند شناسایی. به نوبه خود، شرایط مشکل ممکن است نیاز به مشارکت تعداد متفاوتی از سوابق تشخیصی برای یک راه حل موفق داشته باشد: از یک مورد در هر کلاس شناخته شده تا حجم نمونه کامل، و همچنین راه های مختلفمحاسبه اندازه های شباهت و تفاوت بین اشیاء. این الزامات تقسیم بیشتر روش های توسعه ای را به زیر کلاس ها توضیح می دهد:

    روش مقایسه با نمونه اولیه؛

    روش k-نزدیکترین همسایگان.

    مجموعه قوانین تصمیم گیری

روش مقایسه با نمونه اولیهاین ساده ترین روش تشخیص کششی است. به عنوان مثال، زمانی که کلاس های شناسایی شده در فضای ویژگی توسط گروه بندی های هندسی فشرده نمایش داده می شوند، استفاده می شود. در این حالت معمولا مرکز گروه بندی هندسی کلاس (یا نزدیکترین شی به مرکز) به عنوان نقطه نمونه انتخاب می شود.

برای طبقه بندی یک شی ناشناخته، نزدیکترین نمونه اولیه به آن پیدا می شود و شی متعلق به همان کلاس این نمونه اولیه است. بدیهی است که هیچ تصویر کلاس تعمیم یافته ای در این روش تولید نمی شود.

انواع مختلفی از فواصل را می توان به عنوان معیار نزدیکی استفاده کرد. اغلب، برای ویژگی های دوگانه، از فاصله هامینگ استفاده می شود که در این مورد برابر با مجذور فاصله اقلیدسی است. در این مورد، قانون تصمیم گیری برای طبقه بندی اشیا معادل یک تابع تصمیم خطی است.

این واقعیت باید به ویژه مورد توجه قرار گیرد. این به وضوح ارتباط بین نمونه اولیه و نمایش ویژگی اطلاعات در مورد ساختار داده ها را نشان می دهد. با استفاده از نمایش فوق، می توان برای مثال، هر مقیاس اندازه گیری سنتی را که تابعی خطی از مقادیر مشخصه های دوگانه است، به عنوان یک نمونه اولیه تشخیصی فرضی در نظر گرفت. به نوبه خود، اگر تجزیه و تحلیل ساختار فضایی طبقات شناخته شده به ما اجازه دهد تا در مورد فشردگی هندسی آنها نتیجه گیری کنیم، کافی است هر یک از این کلاس ها را با یک نمونه اولیه جایگزین کنیم که در واقع معادل یک مدل تشخیصی خطی است.

البته، در عمل، وضعیت اغلب با مثال ایده آل توصیف شده متفاوت است. محققی که قصد دارد یک روش تشخیص مبتنی بر مقایسه با کلاس های تشخیصی نمونه اولیه را اعمال کند، با مشکلات دشواری مواجه است. این، اول از همه، انتخاب اندازه گیری مجاورت (متریک) است که می تواند به طور قابل توجهی پیکربندی فضایی توزیع اشیاء را تغییر دهد. و ثانیاً، یک مشکل مستقل، تجزیه و تحلیل ساختارهای چند بعدی داده های تجربی است. هر دوی این مشکلات به ویژه در شرایط ابعاد بالای فضای ویژگی، مشخصه مسائل واقعی، برای محقق حاد است.

روش k-نزدیکترین همسایه.روش k-نزدیکترین همسایه برای حل مسائل تجزیه و تحلیل متمایز اولین بار در سال 1952 ارائه شد. به شرح زیر می باشد.

هنگام طبقه بندی یک شی ناشناخته، یک عدد معین (k) از نزدیکترین هندسی به آن در فضای ویژگیهای اشیاء دیگر (نزدیکترین همسایگان) با عضویت قبلاً شناخته شده در کلاسهای شناخته شده یافت می شود. تصمیم برای تخصیص یک شی ناشناخته به یک کلاس تشخیصی خاص با تجزیه و تحلیل اطلاعات مربوط به این وابستگی شناخته شده نزدیکترین همسایگان آن، به عنوان مثال، با استفاده از یک شمارش آرا ساده گرفته می شود.

در ابتدا روش k-نزدیکترین همسایه به عنوان یک روش ناپارامتریک برای تخمین نسبت درستنمایی در نظر گرفته شد. برای این روش، برآوردهای نظری اثربخشی آن در مقایسه با طبقه‌بندی‌کننده بیزین بهینه به‌دست آمد. ثابت شده است که احتمالات خطای مجانبی برای روش k-نزدیکترین همسایه بیش از دو برابر بیشتر از خطاهای قانون بیز نیست.

همانطور که در بالا ذکر شد، در مسائل واقعی اغلب لازم است با اشیایی که با تعداد زیادی ویژگی کیفی (دوگانه) توصیف می شوند، کار کرد. در این حالت بعد فضای ویژگی متناسب با حجم نمونه مورد مطالعه یا بیشتر از آن است. در چنین شرایطی، تفسیر هر شی از نمونه آموزشی به عنوان یک طبقه‌بندی خطی جداگانه راحت است. سپس این یا آن کلاس تشخیصی نه با یک نمونه اولیه، بلکه با مجموعه ای از طبقه بندی کننده های خطی نشان داده می شود. تعامل ترکیبی طبقه‌بندی‌کننده‌های خطی در نهایت منجر به یک سطح خطی تکه‌ای می‌شود که طبقات شناخته شده را در فضای ویژگی از هم جدا می‌کند. نوع سطح تقسیم، متشکل از قطعات ابرصفحه، می تواند متفاوت باشد و به موقعیت نسبی مصالح طبقه بندی شده بستگی دارد.

تفسیر دیگری از مکانیسم‌های طبقه‌بندی با استفاده از قاعده k-نزدیک‌ترین همسایه‌ها نیز می‌تواند استفاده شود. بر اساس ایده وجود برخی متغیرهای پنهان، انتزاعی یا مرتبط با تغییر به فضای ویژگی اصلی است. اگر در فضای متغیرهای پنهان، فواصل زوجی بین اشیا مانند فضای ویژگی های اصلی باشد و تعداد این متغیرها به طور قابل توجهی کمتر از تعداد اشیا باشد، تفسیر روش k-نزدیکترین همسایه می تواند از نقطه نظر مقایسه برآوردهای ناپارامتریک چگالی توزیع احتمال شرطی در نظر گرفته شود. دیدگاه متغیرهای پنهان ارائه شده در اینجا از نظر ماهیت به دیدگاه ابعاد واقعی و سایر دیدگاه های مورد استفاده در تکنیک های مختلف کاهش ابعاد نزدیک است.

هنگام استفاده از روش k-نزدیکترین همسایه برای تشخیص الگو، محقق باید مشکل دشوار انتخاب یک متریک را برای تعیین نزدیکی اشیاء تشخیص داده شده حل کند. این مشکل در شرایط ابعاد بالای فضای ویژگی به دلیل پیچیدگی کافی این روش به شدت تشدید می شود که حتی برای رایانه های با کارایی بالا نیز قابل توجه است. بنابراین، در اینجا، درست مانند روش مقایسه با یک نمونه اولیه، لازم است مشکل خلاقانه تجزیه و تحلیل ساختار چند بعدی داده های تجربی را حل کنیم تا تعداد اشیاء نشان دهنده کلاس های تشخیصی به حداقل برسد.

الگوریتم های محاسبه رتبه بندی (رای گیری).اصل عملکرد الگوریتم‌های محاسبه ارزیابی (ABO) محاسبه اولویت (نمرات شباهت) است که "نزدیک بودن" اشیاء شناسایی شده و مرجع را با توجه به سیستم مجموعه ویژگی‌ها، که سیستمی از زیر مجموعه‌های مجموعه مشخصی از ویژگی‌ها است، مشخص می‌کند. .

برخلاف تمام روش‌هایی که قبلاً مورد بحث قرار گرفت، الگوریتم‌های محاسبه تخمین‌ها با توصیف اشیاء به روشی اساساً جدید عمل می‌کنند. برای این الگوریتم ها، اشیا به طور همزمان در زیرفضاهای بسیار متفاوتی از فضای ویژگی وجود دارند. کلاس ABO ایده استفاده از ویژگی ها را به نتیجه منطقی خود می برد: از آنجایی که همیشه مشخص نیست که کدام ترکیب ویژگی ها آموزنده ترین هستند، در ABO درجه تشابه اشیاء با مقایسه همه ترکیبات ممکن یا خاص محاسبه می شود. ویژگی های موجود در توضیحات اشیاء

مجموعه قواعد تصمیم گیریقانون تصمیم گیری از یک طرح تشخیص دو سطحی استفاده می کند. در سطح اول، الگوریتم های شناسایی خصوصی عمل می کنند که نتایج آن در سطح دوم در بلوک سنتز ترکیب می شود. متداول ترین روش های چنین یکسان سازی بر اساس شناسایی حوزه های صلاحیت یک الگوریتم خاص است. ساده ترین راهیافتن زمینه های شایستگی شامل تقسیم پیشینی فضای ویژگی ها بر اساس ملاحظات حرفه ای یک علم خاص است (به عنوان مثال، طبقه بندی نمونه بر اساس یک ویژگی خاص). سپس برای هر یک از مناطق انتخاب شده، الگوریتم تشخیص خود ساخته می شود. روش دیگر مبتنی بر استفاده از تجزیه و تحلیل رسمی برای تعیین مناطق محلی فضای ویژگی به عنوان همسایگی اشیاء شناسایی شده است که موفقیت هر الگوریتم تشخیص خاصی برای آنها ثابت شده است.

کلی ترین رویکرد برای ساخت یک بلوک سنتز، شاخص های حاصل از الگوریتم های خاص را به عنوان ویژگی های اولیه برای ساخت یک قانون تصمیم گیری تعمیم یافته جدید در نظر می گیرد. در این صورت می توان از تمام روش های فوق جهت های عمودی و کششی در تشخیص الگو استفاده کرد. برای حل مشکل ایجاد مجموعه ای از قوانین تصمیم گیری، الگوریتم های منطقی از نوع "Kora" و الگوریتم های محاسبه تخمین ها (ABO) موثر هستند که اساس رویکرد به اصطلاح جبری را تشکیل می دهند که مطالعه و توصیف سازنده را ارائه می دهد. الگوریتم های تشخیص، که در چارچوب آن همه انواع الگوریتم های موجود قرار می گیرند.

روش های شبکه عصبی

روش های شبکه عصبی روش هایی مبتنی بر استفاده از انواع مختلف شبکه های عصبی (NN) هستند. زمینه های اصلی کاربرد شبکه های عصبی مختلف برای تشخیص الگو و تصویر:

    برنامه ای برای استخراج ویژگی ها یا ویژگی های کلیدی تصاویر داده شده،

    طبقه‌بندی خود تصاویر یا ویژگی‌هایی که قبلاً از آنها استخراج شده‌اند (در مورد اول، استخراج ویژگی‌های کلیدی به طور ضمنی در شبکه رخ می‌دهد)،

    حل مسائل بهینه سازی

شبکه های عصبی چند لایهمعماری یک شبکه عصبی چندلایه (MNN) شامل لایه‌های متوالی متصل است که در آن نورون هر لایه با ورودی‌های خود به تمام نورون‌های لایه قبلی و خروجی‌های لایه بعدی متصل می‌شود.

ساده ترین کاربرد یک شبکه عصبی تک لایه (به نام حافظه خودکار انجمنی) آموزش شبکه برای بازسازی تصاویر تغذیه شده است. با تغذیه یک تصویر آزمایشی به عنوان ورودی و محاسبه کیفیت تصویر بازسازی شده، می توانید ارزیابی کنید که شبکه چقدر تصویر ورودی را تشخیص داده است. خواص مثبتاین روش به این صورت است که شبکه می تواند تصاویر مخدوش و نویز را بازیابی کند، اما برای اهداف جدی تر مناسب نیست.

MNN همچنین برای طبقه‌بندی مستقیم تصویر استفاده می‌شود - یا خود تصویر به شکلی یا مجموعه‌ای از ویژگی‌های کلیدی قبلاً استخراج‌شده تصویر به عنوان ورودی ارائه می‌شود؛ در خروجی، نورون با حداکثر فعالیت عضویت در کلاس شناخته‌شده را نشان می‌دهد (شکل 2). 4). اگر این فعالیت کمتر از حد معینی باشد، در نظر گرفته می شود که تصویر ارسالی متعلق به هیچ یک از کلاس های شناخته شده نیست. فرآیند یادگیری مطابقت تصاویر ارائه شده به ورودی را با تعلق به یک کلاس خاص ایجاد می کند. به این امر یادگیری تحت نظارت می گویند. این رویکرد برای کارهای کنترل دسترسی گروه کوچکی از افراد خوب است. این رویکرد تضمین می‌کند که شبکه مستقیماً تصاویر را با هم مقایسه می‌کند، اما با افزایش تعداد کلاس‌ها، زمان آموزش و عملیات شبکه به طور تصاعدی افزایش می‌یابد. بنابراین، کارهایی مانند یافتن یک فرد مشابه در یک پایگاه داده بزرگ مستلزم استخراج مجموعه فشرده ای از ویژگی های کلیدی است که بر اساس آن جستجو می شود.

یک رویکرد برای طبقه بندی با استفاده از ویژگی های فرکانس کل تصویر در توضیح داده شده است. یک شبکه عصبی تک لایه مبتنی بر نورون های چند ارزشی استفاده شد.

کاربرد یک شبکه عصبی برای طبقه بندی تصویر زمانی نشان داده می شود که ورودی شبکه نتایج تجزیه تصویر را با استفاده از روش مؤلفه اصلی دریافت کند.

در MNN کلاسیک، اتصالات عصبی بین لایه ای به طور کامل به هم متصل هستند و تصویر به عنوان یک بردار یک بعدی نشان داده می شود، اگرچه دو بعدی است. هدف معماری شبکه عصبی کانولوشن غلبه بر این کاستی هاست. از میدان های گیرنده محلی (ارائه اتصال دو بعدی محلی نورون ها)، وزن های مشترک (تشخیص ویژگی های خاص در هر نقطه از تصویر) و سازماندهی سلسله مراتبی با نمونه برداری فرعی فضایی استفاده کرد. شبکه عصبی کانولوشنال (CNN) مقاومت جزئی در برابر تغییرات مقیاس، جابجایی ها، چرخش ها و اعوجاج ایجاد می کند.

MNN ها همچنین برای تشخیص اشیاء از نوع خاصی استفاده می شوند. علاوه بر این واقعیت که هر MNN آموزش دیده می تواند تا حدی تعیین کند که آیا تصاویر متعلق به کلاس های "آنها" هستند یا خیر، می توان آن را به طور ویژه برای تشخیص مطمئن کلاس های خاص آموزش داد. در این حالت، کلاس های خروجی، کلاس هایی خواهند بود که به نوع تصویر داده شده تعلق دارند و تعلق ندارند. یک آشکارساز شبکه عصبی برای تشخیص تصویر چهره در تصویر ورودی استفاده شد. تصویر با یک پنجره 20x20 پیکسل اسکن شد، که به ورودی شبکه تغذیه می‌شود، که تصمیم می‌گیرد آیا یک ناحیه معین به کلاس چهره‌ها تعلق دارد یا خیر. آموزش با استفاده از مثال‌های مثبت (تصاویر مختلف چهره) و مثال‌های منفی (تصاویر غیر چهره) انجام شد. برای افزایش قابلیت اطمینان تشخیص، از تیمی از شبکه های عصبی استفاده شد که با وزن های اولیه متفاوت آموزش دیدند که در نتیجه شبکه های عصبی به اشکال مختلف دچار خطا شدند و تصمیم نهایی با رای گیری کل تیم گرفته شد.

شکل 5. اجزای اصلی (چهره های ویژه) و تجزیه تصویر به اجزای اصلی

همچنین از یک شبکه عصبی برای استخراج ویژگی های کلیدی تصویر استفاده می شود که سپس برای طبقه بندی بعدی استفاده می شود. در یک روش پیاده سازی شبکه عصبی از روش تحلیل مولفه اصلی نشان داده شده است. ماهیت روش تجزیه و تحلیل مؤلفه های اصلی به دست آوردن ضرایب تزئین شده حداکثری است که تصاویر ورودی را مشخص می کند. این ضرایب را مولفه های اصلی می نامند و برای فشرده سازی آماری تصویر استفاده می شود که در آن تعداد کمی از ضرایب برای نمایش کل تصویر استفاده می شود. یک شبکه عصبی با یک لایه مخفی حاوی N نورون (که بسیار کوچکتر از ابعاد تصویر است)، که با استفاده از روش انتشار پس زمینه برای بازیابی تصویر خروجی تغذیه شده به ورودی آموزش داده شده است، ضرایب اولین N جزء اصلی را در خروجی تولید می کند. از نورون های پنهان، که برای مقایسه استفاده می شود. به طور معمول، از 10 تا 200 جزء اصلی استفاده می شود. با افزایش تعداد یک مؤلفه، بازنمایی آن به شدت کاهش می یابد و استفاده از مؤلفه هایی با تعداد بیشتر منطقی نیست. هنگام استفاده از توابع فعال سازی غیرخطی عناصر عصبی، تجزیه غیرخطی به اجزای اصلی امکان پذیر است. غیر خطی بودن اجازه می دهد تا تغییرات در داده های ورودی با دقت بیشتری منعکس شود. با استفاده از تجزیه و تحلیل مؤلفه های اصلی در تجزیه تصاویر صورت، مؤلفه های اصلی به نام «صورت ویژه» را به دست می آوریم که دارای ویژگی مفیدی نیز هستند - مؤلفه هایی وجود دارند که عمدتاً ویژگی های اساسی یک چهره مانند جنسیت، نژاد، احساسات را منعکس می کنند. هنگام بازسازی، اجزا ظاهری شبیه به چهره دارند، که اولی کلی ترین شکل صورت را منعکس می کند، دومی نشان دهنده تفاوت های کوچک مختلف بین چهره ها است (شکل 5). این روش برای یافتن تصاویر مشابه از چهره ها در پایگاه های داده بزرگ مناسب است. امکان کاهش بیشتر ابعاد اجزای اصلی با استفاده از NN نیز نشان داده شده است. با ارزیابی کیفیت بازسازی تصویر ورودی، می توانید با دقت بسیار زیادی عضویت آن را در کلاس چهره ها تعیین کنید.

شبکه های عصبی مرتبه بالاشبکه‌های عصبی مرتبه بالا (HANN) با MNN‌ها تفاوت دارند زیرا فقط یک لایه دارند، اما ورودی‌های نورون عبارت‌های مرتبه بالایی را نیز دریافت می‌کنند که حاصلضرب دو یا چند جزء از بردار ورودی است. چنین شبکه هایی همچنین می توانند سطوح تقسیم کننده پیچیده را تشکیل دهند.

شبکه های عصبی هاپفیلدهاپفیلد NN (HNS) تک لایه و کاملا متصل است (هیچ ارتباطی بین نورون ها روی خود وجود ندارد)، خروجی های آن به ورودی ها متصل هستند. بر خلاف MNS، NSC آرامش است - یعنی. در حالت اولیه تنظیم می شود، تا زمانی که به حالت پایدار برسد، کار می کند که مقدار خروجی آن خواهد بود. برای جستجوی حداقل جهانی در رابطه با مسائل بهینه‌سازی، از تغییرات تصادفی NSC استفاده می‌شود.

استفاده از NSH به عنوان یک حافظه ارتباطی به شما این امکان را می دهد که تصاویری را که شبکه برای آنها آموزش داده شده است، هنگامی که یک تصویر تحریف شده به ورودی داده می شود، به دقت بازیابی کنید. در این مورد، شبکه نزدیکترین تصویر (به معنای حداقل انرژی محلی) را "به خاطر می آورد" و بنابراین آن را تشخیص می دهد. چنین عملکردی همچنین می‌تواند به عنوان کاربرد متوالی حافظه خودکار انجمنی که در بالا توضیح داده شد نشان داده شود. بر خلاف حافظه خودکار، NSC به طور ایده آل تصویر را با دقت بازیابی می کند. برای جلوگیری از حداقل تداخل و افزایش ظرفیت شبکه، استفاده کنید روش های مختلف.

خود سازماندهی شبکه های عصبی کوهونن.شبکه‌های عصبی کوهونن خود سازماندهی (KONN) ترتیب توپولوژیکی فضای تصویر ورودی را فراهم می‌کنند. آنها یک نگاشت پیوسته توپولوژیکی از فضای ورودی n بعدی را به فضای خروجی m بعدی، mn، اجازه می دهند. تصویر ورودی در موقعیتی در شبکه نمایش داده می شود که به عنوان موقعیت گره فعال شده کدگذاری می شود. بر خلاف بسیاری از روش‌های طبقه‌بندی و خوشه‌بندی دیگر، ترتیب توپولوژیکی کلاس‌ها شباهت خروجی را در الگوهای ورودی حفظ می‌کند، که مخصوصاً هنگام طبقه‌بندی داده‌هایی که تعداد کلاس‌های زیادی دارند، مفید است.

Cognitron.معماری Cognitron شبیه به ساختار قشر بینایی است؛ دارای یک سازمان چند لایه سلسله مراتبی است که در آن نورون های بین لایه ها فقط به صورت محلی به هم متصل می شوند. یادگیری با یادگیری رقابتی (بدون معلم). هر لایه از مغز سطوح مختلفی از تعمیم را اجرا می کند. لایه ورودی به الگوهای ساده مانند خطوط و جهت گیری آنها در مناطق خاصی از حوزه بصری حساس است، در حالی که پاسخ لایه های دیگر پیچیده تر، انتزاعی تر و مستقل از موقعیت الگو است. عملکردهای مشابهی با مدل‌سازی سازمان‌دهی قشر بینایی در cognitron اجرا می‌شوند.

Neocognitron توسعه بیشتر ایده cognitron است و ساختار سیستم بصری را با دقت بیشتری منعکس می کند، به شما امکان می دهد تصاویر را بدون توجه به تبدیل، چرخش، اعوجاج و تغییرات در مقیاس آنها تشخیص دهید.

Cognitron یک ابزار قدرتمند تشخیص تصویر است، اما به هزینه های محاسباتی بالایی نیاز دارد که در حال حاضر دست نیافتنی است.

روش های شبکه عصبی در نظر گرفته شده، تشخیص سریع و قابل اعتماد تصویر را ارائه می دهند، اما هنگام استفاده از این روش ها، مشکلاتی در تشخیص اشیاء سه بعدی ایجاد می شود. با این حال، این رویکرد مزایای بسیاری دارد.

      نتیجه

در حال حاضر، تعداد بسیار زیادی از سیستم های تشخیص خودکار الگو برای کارهای مختلف کاربردی وجود دارد.

تشخیص الگو با روش های رسمی به عنوان اساسی جهت علمیتمام نشدنی است

روش های ریاضی پردازش تصویر کاربردهای گسترده ای دارند: علم، فناوری، پزشکی، حوزه اجتماعی. در آینده نقش شناخت الگو در زندگی انسان بیش از پیش افزایش خواهد یافت.

روش های شبکه عصبی تشخیص سریع و قابل اعتماد تصویر را فراهم می کنند. این روش مزایای زیادی دارد و یکی از امیدوارکننده ترین آنهاست.

ادبیات

    D.V. بریلیوک، وی. استاروویتوف. روش های شبکه عصبی برای تشخیص تصویر // /

    Kuzin L.T. مبانی سایبرنتیک: مبانی مدل های سایبرنتیک. T.2. - م.: انرژی، 1979. - 584 ص.

    Peregudov F.I.، Tarasenko F.P. مقدمه ای بر تحلیل سیستم ها: کتاب درسی. – م.: دبیرستان، 1997. - 389 ص.

    تمنیکوف F.E.، Afonin V.A.، Dmitriev V.I. مبانی نظری فناوری اطلاعات. - م.: انرژی، 1979. - 511 ص.

    Tu J., Gonzalez R. اصول تشخیص الگو. /ترانس. از انگلیسی - م.: میر، 1978. - 410 ص.

    وینستون پی. هوش مصنوعی. /ترانس. از انگلیسی - م.: میر، 1980. - 520 ص.

    Fu K. روشهای ساختاری در تشخیص الگو: ترجمه از انگلیسی. - م.: میر، 1977. - 320 ص.

    Tsypkin Ya.Z. مبانی نظریه اطلاعات هویت. - م.: ناوکا، 1984. - 520 ص.

    پوسپلوف G.S. هوش مصنوعی اساس فناوری اطلاعات جدید است. - M.: Nauka، 1988. - 280 p.

    یو لیفشیتس، روشهای آماری تشخیص الگو ///modern/07modernnote.pdf

    Bohr N. فیزیک اتمی و شناخت انسان. /ترجمه از انگلیسی - م.: میر، 1961. - 151 ص.

    بوتاکوف E.A.، Ostrovsky V.I.، Fadeev I.L. پردازش تصویر در کامپیوتر.1987.-236p.

    دودا آر.، هارت پی. تشخیص الگو و تحلیل صحنه. /ترجمه از انگلیسی - م.: میر، 1978. - 510 ص.

    دوک V.A. روانشناسی کامپیوتری. - سن پترزبورگ: برادری، 1994. - 365 ص.

    آیزنبرگ I.N.، Aizenberg N. N. و Krivosheev G. A. نورون‌های باینری چند ارزشی و جهانی: الگوریتم‌های یادگیری، برنامه‌های کاربردی برای پردازش و تشخیص تصویر. یادداشت های سخنرانی در هوش مصنوعی - یادگیری ماشین و داده کاوی در تشخیص الگو، 1999، pp. 21-35.

    Ranganath S. و Arun K. تشخیص چهره با استفاده از ویژگی های تبدیل و شبکه های عصبی. تشخیص الگو 1997، جلد. 30، صص. 1615-1622.

    Golovko V.A. هوش عصبی: نظریه و کاربردها کتاب 1. سازماندهی و آموزش شبکه های عصبی با مستقیم و بازخورد– برست: BPI، 1999، - 260 p.

    Vetter T. و Poggio T. کلاس های شی خطی و ترکیب تصویر از یک تصویر نمونه. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19، صص. 733-742.

    Golovko V.A. هوش عصبی: نظریه و کاربردها کتاب 2. خود سازماندهی، تحمل خطا و کاربرد شبکه های عصبی - برست: BPI، 1999، - 228 ص.

    لارنس اس.، گیلز سی. ال.، تسوی ای سی و پشت ای دی. تشخیص چهره: رویکرد شبکه عصبی کانولوشنال. IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition, pp. 1-24.

    Wasserman F. Neurocomputer Technology: Theory and Practice, 1992 – 184 p.

    Rowley, H. A., Baluja, S. and Kanade, T. تشخیص چهره مبتنی بر شبکه عصبی. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, Vol. 20، صص. 23-37.

    Valentin D., Abdi H., O"Toole A. J. and Cottrell G. W. Connectionist models of face processing: a Survey IN: Pattern Recognition 1994, Vol. 27, pp. 1209-1230.

    سند

    آنها الگوریتم هایی را می سازند به رسمیت شناختنتصاویر. مواد و روش هابه رسمیت شناختنتصاویرهمانطور که در بالا ذکر شد ... واقعیت این نیست وجود دارد"اکوسیستم ها به طور کلی"، و وجود داشته باشدفقط فردی... نتیجه گیری از این جزئیات مرورمواد و روش هابه رسمیت شناختنارائه کردیم در ...

  1. بررسی روش های شناسایی افراد بر اساس تصاویر چهره با در نظر گرفتن ویژگی های تشخیص بصری

    مرور

    ... به رسمیت شناختنتوسط شخصی از اشیاء کم کنتراست، از جمله. افراد داده شده مرورمشترک مواد و روش ها ... وجود داردکل خط مواد و روش ها ... مسیردر نتیجه تحقیق، بستری برای توسعه روشبه رسمیت شناختن ...

  2. به نام گلازکووا والنتینا ولادیمیرونا تحقیق و توسعه روش‌های ساخت ابزارهای نرم‌افزاری برای طبقه‌بندی اسناد فرامتن چند موضوعی تخصص 05

    چکیده پایان نامه

    اسناد فرا متنی فصل فراهم می کند مرورموجودمواد و روش هاراه حل های مسئله مورد بررسی، شرح ... با قطع کمترین کلاس های مرتبط // ریاضی مواد و روش هابه رسمیت شناختنتصاویر: سیزدهمین کنفرانس سراسری روسیه. منطقه لنینگراد ...

  3. اسلاید 0 بررسی وظایف بیوانفورماتیک مربوط به تجزیه و تحلیل و پردازش متون ژنتیکی

    سخنرانی

    توالی DNA و پروتئین مروروظایف بیوانفورماتیک به عنوان وظایف ... سیگنال ها نیاز به استفاده از مدرن دارند مواد و روش هابه رسمیت شناختنتصاویر، رویکردهای آماری و ... با تراکم ژنی کم. موجودبرنامه های پیش بینی ژن ...

روش‌های تشخیص خودکار تصویر و پیاده‌سازی آنها در سیستم‌های تشخیص کاراکتر نوری (سیستم‌های OCR) یکی از پیشرفته‌ترین فناوری‌های هوش مصنوعی است. دانشمندان روسی در توسعه این فناوری موقعیت های پیشرو در جهان را اشغال می کنند.

سیستم OCR به عنوان سیستمی برای تشخیص خودکار الگوها با استفاده از برنامه‌های ویژه برای تصاویر کاراکترهای متن چاپ شده یا دست‌نویس (به عنوان مثال، وارد شده به رایانه از طریق اسکنر) و تبدیل آن به قالبی مناسب برای پردازش توسط پردازشگرهای متن، ویرایشگرهای متن شناخته می‌شود. ، و غیره.

مخفف OCR گاهی اوقات مخفف Optical Character Reader - دستگاهی برای تشخیص نوری کاراکتر یا خواندن خودکار متن است. در حال حاضر این گونه دستگاه ها در مصارف صنعتی روزانه تا 100 هزار سند پردازش می کنند.

استفاده صنعتی شامل ورود اسناد با کیفیت خوب و متوسط ​​است - این پردازش فرم های سرشماری، اظهارنامه مالیاتی و غیره است.

اجازه دهید ویژگی های حوزه موضوعی را که از دیدگاه سیستم های OCR قابل توجه است فهرست کنیم:

  • انواع فونت و اندازه نمادها.
  • تحریف در تصاویر نمادها (شکست در تصاویر نمادها)؛
  • اعوجاج در حین اسکن؛
  • گنجاندن خارجی در تصاویر؛
  • ترکیبی از قطعات متن در زبان های مختلف.
  • طیف گسترده ای از کلاس های کاراکتر که فقط با اطلاعات زمینه ای اضافی قابل شناسایی هستند.

خواندن خودکار متون چاپی و دست نویس یک مورد خاص از درک بصری خودکار تصاویر پیچیده است. مطالعات متعدد نشان داده است که برای حل کامل این مشکل، شناخت فکری، یعنی «شناخت با درک» ضروری است.

سه اصل وجود دارد که تمامی سیستم های OCR بر اساس آن ها بنا شده اند.

  • 1. اصل یکپارچگی تصویر. موضوع مورد مطالعه همیشه دارای بخش های مهمی است که بین آنها روابط وجود دارد. نتایج عملیات محلی با بخش‌هایی از تصویر در فرآیند تفسیر قطعات انتگرال و کل تصویر به عنوان یک کل تنها با هم تفسیر می‌شوند.
  • 2. اصل هدفمندی. شناخت فرآیند هدفمند ساختن و آزمایش فرضیه ها (پیدا کردن آنچه از یک شیء انتظار می رود) است.
  • 3. اصل سازگاری. سیستم تشخیص باید قابلیت خودآموزی را داشته باشد.

سیستم های OCR پیشرو روسیه: FineReader. دستنوشته FineReader; FormReader; CunieForm (فناوری های شناختی)، فرم های شناختی (تکنولوژی های شناختی).

سیستم FineReader توسط ABBYY، که در سال 1989 تاسیس شد، تولید می شود. پیشرفت های ABBYY در دو جهت انجام می شود: بینایی کامپیوتر و زبان شناسی کاربردی. جهت استراتژیک تحقیق و توسعه، جنبه زبان طبیعی فناوری ها در زمینه بینایی کامپیوتر، هوش مصنوعی و زبان شناسی کاربردی است.

CuneiForm GOLD برای ویندوز اولین سیستم OCR هوشمند خودآموز در جهان است که از آخرین فناوری تشخیص متن تطبیقی ​​استفاده می کند و از چندین زبان پشتیبانی می کند. برای هر زبان، یک فرهنگ لغت برای بررسی متنی و بهبود کیفیت نتایج تشخیص ارائه شده است. هر نوع چاپ، حروف تایپی و فونت دریافتی از چاپگرها را به استثنای متون تزئینی و دست نویس و همچنین متون بسیار کم کیفیت تشخیص می دهد.

ویژگی های سیستم های تشخیص الگو در بین فناوری‌های OCPL، فناوری‌های ویژه برای حل کلاس‌های خاصی از مشکلات تشخیص خودکار الگو از اهمیت بالایی برخوردار است:

  • جستجوی افراد با عکس؛
  • جستجوی ذخایر معدنی و پیش بینی آب و هوا بر اساس عکس های هوایی و تصاویر ماهواره ای در محدوده های مختلف تابش نور.
  • ترسیم نقشه های جغرافیایی بر اساس اطلاعات اولیه مورد استفاده در کار قبلی.
  • تجزیه و تحلیل اثر انگشت و الگوهای عنبیه در پزشکی قانونی، امنیتی و سیستم های پزشکی

در مرحله آماده سازی و پردازش اطلاعات، به ویژه در زمان کامپیوتری شدن سازمان، اتوماسیون حسابداری، وظیفه وارد کردن حجم زیادی از متن و اطلاعات گرافیکی در رایانه شخصی است. دستگاه های اصلی برای وارد کردن اطلاعات گرافیکی عبارتند از: اسکنر، مودم فکس و کمتر رایج، دوربین دیجیتال. علاوه بر این، با استفاده از برنامه های تشخیص متن نوری، می توانید اطلاعات متنی را نیز در رایانه وارد کنید (دیجیتالیزه کنید). سیستم‌های نرم‌افزاری و سخت‌افزاری مدرن این امکان را فراهم می‌آورند که ورود حجم زیادی از اطلاعات به رایانه را به‌طور خودکار با استفاده از یک اسکنر شبکه و تشخیص متن موازی در چندین رایانه به طور همزمان انجام دهند.

اکثر برنامه های OCR با تصاویر شطرنجی کار می کنند که از طریق مودم فکس، اسکنر، دوربین دیجیتال یا دستگاه های دیگر دریافت می شوند. در مرحله اول، سیستم OSL باید صفحه را بر اساس ویژگی های تراز راست و چپ و وجود چندین ستون، به بلوک های متنی تقسیم کند. سپس بلوک شناسایی شده به خطوط تقسیم می شود. علیرغم سادگی ظاهری آن، این کار چندان واضح نیست، زیرا در عمل، تحریف تصویر صفحه یا تکه های آن هنگام تا شدن اجتناب ناپذیر است. حتی یک شیب جزئی باعث می شود که لبه سمت چپ یک خط از لبه راست خط بعدی پایین تر باشد، به خصوص با فاصله خطوط تنگ. در نتیجه، مشکل تعیین خطی است که این یا آن قطعه تصویر به آن تعلق دارد. مثلا برای حروف

سپس خطوط به مناطق تصویر پیوسته تقسیم می شوند که با حروف جداگانه مطابقت دارند. الگوریتم تشخیص مفروضاتی را در مورد مطابقت این مناطق با کاراکترها ایجاد می کند و سپس هر کاراکتر انتخاب می شود که در نتیجه صفحه در کاراکترهای متنی و به عنوان یک قاعده در قالب معین بازسازی می شود. سیستم های OBL می توانند به بهترین دقت تشخیص دست یابند - بیش از 99.9٪ برای تصاویر تمیزی که از فونت های معمولی تشکیل شده اند. در نگاه اول، این دقت تشخیص ایده‌آل به نظر می‌رسد، اما میزان خطا همچنان ناامیدکننده است، زیرا اگر تقریباً 1500 کاراکتر در یک صفحه وجود داشته باشد، حتی با نرخ موفقیت تشخیص 99.9٪، یک یا دو خطا در هر صفحه وجود دارد. در چنین مواردی، باید از روش بررسی فرهنگ لغت استفاده کنید، یعنی اگر کلمه ای در فرهنگ لغت سیستم وجود ندارد، سعی می کند مطابق قوانین خاصی کلمه مشابه را پیدا کند. اما این هنوز هم اجازه تصحیح 100٪ خطاها را نمی دهد و نیاز به کنترل انسان بر نتایج دارد.

موجود در زندگی واقعیمتون معمولاً از کامل بودن دور هستند و درصد خطاهای تشخیص برای متون "ناخالص" اغلب به طور غیرقابل قبولی بالا است. تصاویر کثیف واضح ترین مشکل هستند زیرا حتی ایرادهای کوچک می توانند قسمت های مشخص یک شخصیت را مبهم کنند یا یکی را به دیگری تبدیل کنند. مشکل دیگر اسکن نادرست به دلیل "عامل انسانی" است، زیرا اپراتور نشسته در اسکنر به سادگی قادر به صاف کردن هر صفحه اسکن شده و تراز دقیق آن با لبه های اسکنر نیست. اگر سند فتوکپی شده باشد، شکستگی و ادغام کاراکترها اغلب رخ می دهد. هر یک از این اثرات می تواند باعث خطای سیستم شود زیرا برخی از سیستم های سیستم عامل فرض می کنند که یک ناحیه تصویر پیوسته باید یک کاراکتر باشد. یک صفحه خارج از محدوده یا اریب، تصاویر شخصیتی کمی تحریف شده ایجاد می کند که می تواند توسط سیستم OS اشتباه گرفته شود.

نرم افزار سیستم عامل معمولاً با یک تصویر بیت مپ بزرگ از صفحه دریافت شده از اسکنر کار می کند. تصاویر با وضوح استاندارد با اسکن در 9600 ppi به دست می آیند. یک تصویر صفحه A4 با این وضوح حدود 1 مگابایت حافظه را اشغال می کند.

هدف اصلی سیستم های OCR آنالیز اطلاعات شطرنجی (نماد اسکن شده) و اختصاص نماد مربوطه به قطعه ای از یک تصویر است. پس از تکمیل فرآیند تشخیص، سیستم‌های OCR باید بتوانند قالب‌بندی اسناد منبع را حفظ کنند، یک ویژگی پاراگراف را در مکان مناسب اختصاص دهند، جداول، گرافیک‌ها و غیره را ذخیره کنند. برنامه‌های تشخیص مدرن از همه قالب‌های شناخته شده متن، گرافیک و صفحه‌گسترده پشتیبانی می‌کنند. به صورت HTML و PDF

کار با سیستم های OCR، به عنوان یک قاعده، نباید مشکل خاصی ایجاد کند. اکثر این سیستم ها دارای یک حالت خودکار ساده "اسکن و خواندن" هستند و همچنین از حالتی برای تشخیص تصاویر از فایل ها پشتیبانی می کنند. با این حال، برای دستیابی به بهترین نتایج ممکن برای یک سیستم معین، توصیه می شود (و اغلب اجباری) ابتدا آن را به صورت دستی برای نوع خاصی از متن، طرح بندی فرم و کیفیت کاغذ پیکربندی کنید. یک صفحه نامناسب یا اریب، تصاویر شخصیتی کمی تحریف شده ایجاد می کند که می تواند توسط یک سیستم OCR اشتباه گرفته شود.

هنگام کار با یک سیستم OCR، انتخاب زبان تشخیص و نوع ماده (ماشین تحریر، فکس، چاپگر ماتریس نقطه، روزنامه و غیره) و همچنین وضوح بصری رابط کاربری بسیار مهم است. هنگام تشخیص متونی که از چندین زبان استفاده می کنند، اثربخشی تشخیص به توانایی سیستم OCR برای تشکیل گروه هایی از زبان ها بستگی دارد. در عین حال، برخی از سیستم ها از قبل دارای ترکیباتی برای رایج ترین زبان ها مانند روسی و انگلیسی هستند.

در حال حاضر تعداد زیادی برنامه وجود دارد که از تشخیص متن به عنوان یکی از قابلیت ها پشتیبانی می کند. پیشرو در این زمینه سیستم FineReader است. آخرین نسخه این برنامه (6.0) اکنون دارای ابزارهایی برای توسعه سیستم های جدید مبتنی بر فناوری FineReader 6.0 است. خانواده FineReader 6.0 شامل: FineReader 6.0 Professional، FineReader 6.0 Corporate Edition، FineReader Scripting Edition 6.0 و FineReader Engine 6.0 است. سیستم FineReader 6.0 علاوه بر دانستن تعداد زیادی فرمت برای ذخیره از جمله PDF، توانایی تشخیص مستقیم فایل های PDF را نیز دارد. فناوری جدید فیلتر پس‌زمینه هوشمند به شما امکان می‌دهد اطلاعات مربوط به بافت سند و نویز پس‌زمینه تصویر را فیلتر کنید: گاهی اوقات از پس‌زمینه خاکستری یا رنگی برای برجسته کردن متن در سند استفاده می‌شود. این مانع از خواندن شخص نمی‌شود، اما الگوریتم‌های تشخیص متن معمولی هنگام کار با حروف واقع در بالای چنین پس‌زمینه با مشکلات جدی مواجه می‌شوند. FineReader می‌تواند با جدا کردن متن از پس‌زمینه سند، یافتن نقاط کوچک‌تر از اندازه معین و حذف آنها، نواحی حاوی متن مشابه را شناسایی کند. در این حالت خطوط حروف حفظ می شوند، به طوری که نقاط پس زمینه نزدیک به این خطوط تداخلی ایجاد نمی کند که می تواند کیفیت تشخیص متن را کاهش دهد.

با استفاده از قابلیت های برنامه های چیدمان مدرن، طراحان اغلب اشیایی به شکل پیچیده ایجاد می کنند، مانند پیچیدن متن چند ستونی در اطراف یک تصویر غیر مستطیلی. سیستم FineReader 6.0 از شناسایی چنین اشیایی و ذخیره آنها در فایل های MS Word پشتیبانی می کند. اکنون اسناد با چیدمان پیچیده به طور دقیق در این ویرایشگر متن بازتولید خواهند شد. حتی جداول با حداکثر دقت شناسایی می شوند، در حالی که قابلیت ویرایش کامل را حفظ می کنند.

سیستم FormReader ABBYY یکی از برنامه های تشخیص ABBYY است که بر اساس سیستم ABBYY FineReader Engine است. این برنامه برای شناسایی و پردازش فرم هایی طراحی شده است که می توان آنها را به صورت دستی پر کرد. ABBYY FormReader می‌تواند فرم‌هایی را با طرح‌بندی ثابت و همچنین فرم‌هایی را که ساختارشان تغییر می‌کند، مدیریت کند. برای شناخت استفاده شد تکنولوژی جدیدفناوری ABBYY FlexiForm.

تولیدکنندگان پیشرو نرم افزار مجوز فناوری اطلاعات روسیه را برای استفاده در محصولات خود صادر کرده اند. بسته های نرم افزاری محبوب Corel Draw (Corel Corporation)، FaxLine/OCR & Business Card Wizard (Inzer Corporation) و بسیاری دیگر دارای کتابخانه CuneiForm OCR هستند. این برنامه اولین سیستم OCR در روسیه بود که لوگوی سازگار با MS Windows را دریافت کرد.

سیستم Readiris Pro 7 - برنامه حرفه ایتشخیص متن به گفته سازندگان، این سیستم OCR در بالاترین دقت در تبدیل اسناد چاپی معمولی (روزمره) مانند نامه ها، فکس ها، مقالات مجلات، بریده های روزنامه به اشیاء قابل دسترسی برای ویرایش (از جمله فایل های PDF) با آنالوگ ها متفاوت است. مزایای اصلی برنامه عبارتند از: توانایی تشخیص کم و بیش دقیق تصاویر فشرده شده "به حداکثر" (با حداکثر کاهش کیفیت) با استفاده از روش فرمت JPEG، پشتیبانی دوربین های دیجیتالو تشخیص خودکار جهت گیری صفحه، پشتیبانی از حداکثر 92 زبان (از جمله روسی).

سیستم OmniPage 11 محصول ScanSoft است. یک نسخه محدود از این برنامه (OmniPage 11 Limited Edition، OmniPage Lite) معمولاً با اسکنرهای جدید (در اروپا و ایالات متحده آمریکا) ارائه می شود. توسعه دهندگان ادعا می کنند که برنامه آنها اسناد چاپ شده را با دقت تقریباً 100٪ تشخیص می دهد و قالب بندی آنها را بازیابی می کند، از جمله ستون ها، جداول، خط تیره (شامل خط فاصله قسمت هایی از کلمات)، عنوان، عنوان فصل، امضا، شماره صفحه، پاورقی، پاراگراف، لیست شماره گذاری شده. ، خطوط قرمز، نمودارها و تصاویر. امکان ذخیره در مایکروسافت آفیس، PDF و 20 فرمت دیگر، شناسایی از فایل های PDF و ویرایش در این فرمت وجود دارد. سیستم هوش مصنوعی به شما این امکان را می دهد که پس از اولین تصحیح دستی به طور خودکار خطاها را شناسایی و تصحیح کنید. ماژول نرم افزاری جدید توسعه یافته "Dcspeckle" به شما امکان می دهد اسناد را با کیفیت پایین (فکس، کپی، کپی از کپی ها و غیره) تشخیص دهید. مزیت این برنامه امکان تشخیص متن رنگی و انجام تنظیمات صوتی است. نسخه ای از OmniPage نیز برای رایانه های مکینتاش وجود دارد.

  • سانتی متر.: باشماکوف A. I.، باشماکوف I. A.فناوری اطلاعات هوشمند
اگر خطایی پیدا کردید، لطفاً یک متن را انتخاب کنید و Ctrl+Enter را فشار دهید.