نظارت بر داده کاوی

شبکه عصبی :

یک شبکه عصبی مجموعه ای از نودهای به هم پیوسته است که طراحی می شوند تا رفتار مغز انسان را شبیه سازی کنند.

چون مغز انسان از بیلیونها عصب تشکیل شده و شبکه های عصبی کمتر از صد نود دارند مقایسه یک شبکه عصبی و رفتار مغز کمی غیر متعارف است. با این وجود شبکه های عصبی با موفقیت ، برای حل مسائل بکار برده می شوندو برای داده کاوی نیز کاملا ابزار مناسبی است .

شبکه های عصبی در شکلها و فرمهای گوناگونی وجود دارند و هم برای آموزش تحت کنترل و هم دسته بندی بدون کنترل بکار می روند. درهمه موارد ، مقادیر ورودی برای شبکه عصبی باید عددی باشند. شبکه feed-forward یک نوع شبکه عصبی مناسب برای مسائل آموزش تحت کنترل

می باشد.

برگشت آماری :

برگشت آماری یکی از روشهای آموزش تحت کنترل است که یک مجموعه از داده های عددی را توسط ایجاد معادلات ریاضی مرتبط با یک یا چند صفت ورودی به یک صفت خروجی عددی نسبت

می دهد.

یک مدل “ برگشت خطی ” توسط یک صفت خروجی که مقدارش بوسیله :

“ جمع مقادیر صفت های ورودی ×  یک وزن مشخص “ مشخص می شود.

مثلا اگر یک پایگاه داده شامل صفات ورودی A , B, C , D  و صفت خروجی E باشد، رابطه زیر

می تواند یک مدل برگشت خطی باشد :

E = 0.5 C – ۰.۲ B + A + 0.32

میبینیم که E  صفت خروجی است که مقدارش توسط ترکیب خطی صفات A , B , C  تعیین می گردد.

همانند شبکه عصبی ، در این روش نیز همه ورودیها باید عددی باشند و در صورتیکه داده ها در پایگاه داده مقوله ای باشند باید آنها را به داده های عددی تبدیل کنیم.

قوانین وابستگی :

به تفصیل در بخشهای بعد مورد بحث قرار می گیرد.قوانین پیوستگی۱:

یکی از مهمترین بخشهای داده کاوی، کشف قوانین وابستگی در پایگاه داده است.این قوانین، لزوم وقوع برخی صفات(آیتم ها) را در صورت وقوع برخی دیگر از آیتمها، تضمین می کند.

برای روشن شدن مطلب یک فروشگاه خرده فروشی را در نظر بگیرید. مشخصات اجناس خریده شده توسط هر مشتری در یک رکورد پایگاه داده ذخیره می شود.به هر رکورد یک شناسه (TID) نسبت داده می شود.فرض کنید که مجموعه I شامل تمام آیتمها(اجناس) فروشگاه باشد. اگر Ì I x,y  و x∩y=ø آنگاه x=>y یک قانون وابستگی است که بیان میکند اگریک مشتری اجناس مجموعه x را بخرد، اجناس مجموعه y را هم می خرد. این چنین قوانین، تأثیر مهمی در تایین استراتژیهای فروش، بخش بندی مشتریان، تنظیم کاتالوگها و… دارد. همچنین کشف قوانین وابستگی، کاربردهای بسیاری در علوم مختلف نیز دارد.

تعریف مسأله:

مجموعه آیتم: به هر زیر مجموعه از مجموعه آیتمها  I)) ‘ یک مجموعه آیتم ‘ میگوییم.

در بیشتر الگوریتمها مساله کشف قوانین پیوستگی به دو زیر مساله تقسیم می شود:

۱.پیدا کردن تمامی زیر مجموعه های مجموعه I  [مجموعه آیتمها] که تکرار (وقوع) آنها در پایگاه بیشتر از یک حد تایین شده است.

به مجموعه آیتمهایی که تعداد وقوع آنها در پایگاه بزرگتر(یا مساوی)حد تایین شده است

‘ مجموعه آیتمهای بزرگ’، وبه بقیه’ مجموعه آیتمهای کوچک’ می گوییم.

۲.بکارگیری مجموعه آیتمهای بزرگ برای تولید قوانین مطلوب.

تعریف:

پوشش: مجموعه I شامل تمام آیتمها و مجموعه آیتم x  را در نظر بگیرید ، می گوییم پوشش x  در پایگاه داده برابر است با ℓ  اگر و فقط اگر تعداد وقوع مجموعه آیتم x  در پایگاه داده برابر با ℓ  باشد.

Support(x)=ℓ

درجه اطمینان: مجموعه I شامل تمامی اقلام و مجموعه آیتمهای x  و y  مفروضند. درجه اطمینان قانون     x=>yبرابر است با :        x∩y=ø

 

Conf(x=>y) =  support(xUy)

support(x)

  الگوریتم :

Apriori    این الگوریتم(Agrawal & Srikant ,1994) برای تولید مجموعه اقلام بزرگ به این ترتیب عمل می کند:

ابتدا با یک دور خواندن پایگاه داده مجموعه اقلام بزرگ یک عضوی ((۱-itemsetرا مشخص می کنیم.[مجموعه اقلام ۱ عضوی که تعداد تکرار آنها در  DB  از حد تایین شده(minsup) بیشتر است.]

سپس با استفاده ازمجموعه اقلام بزرگ یک عضوی، مجموعه اقلام دو عضوی را ایجاد می کنیم و برای تایین پوشش مجموعه اقلام دو عضوی یک بار دیگر کل پایگاه داده را می خوانیم تا مجموعه اقلام بزرگ دو عضوی را تایین کنیم.

به همین ترتیب با استفاده از مجموعه اقلام برگ دو عضوی مجموعه اقلام سه عضوی را ایجاد کرده و با خواندن دوباره پایگاه داده پوشش هر مجموعه قلم سه عضوی را مشخص کرده و مجموعه اقلام بزرگ سه عضوی تولید می شوند و این کار را برای مجموعه های ۴عضوی و … انجام میدهیم تا مرحله ای که هیچ مجموعه آیتم بزر الگوریتم:

L1= { larg-1-itemset }

for ( k=2; Lk-1 ≠۰;k+1 ) do

 begin

      C k=apriori – gen(Lk-1 ) //عضوی k عضوی با استفاده از اقلام بزرگ۱-k ساخت زیر مجموعه های

        for all transaction lεD do

         begin

             C t=subset(Ck,l); //  رخ دادند.  عضوی در تراکنش k تست اینکها کدام مجموعه آیتمهای

                   for all candidate cεCt  do

                                           c.count++;

         end

     Lk={ cεCk l c.count ≥minsup}

end;

Answer=Uk Lk

 

(تبصره : اگر یک مجموعه آیتم بزرگ باشد[تکرارش درپایگاه داده بیشتر از minsupباشد] تمامی زیرمجموعه های آن نیز بزرگ هستند.)

چون هدف، تولید مجموعه اقلام بزرگ است، در الگوریتم   aprioriدر هر مرحله پس از ایجاد مجموعه اقلامk  عضوی از مجموعه اقلام بزرگ k-1 عضوی قبل از خواندن پایگاه داده برای تشخیص پوشش مجموعه اقلام k  عضوی، ابتدا باید برای هر مجموعه قلم ببینبم آیا زیر مجموعه k-1 عضوی اش بزرگ هستند یا نه، اگر حتی یک زیر مجموعه k-1 عضوی اش هم بزرگ نباشد، آن مجموعه قلم k عضوی نمی تواند بزرگ باشد.(طبق قضیه) و آن را حذف می کنیم.

برای روشن تر شدن الگوریتم به مثال زیر توجه کنید:

 

 

                               minsup=3                          Database:

Items

TID

۱  ۳  ۴  ۵

۱۰۰

۲  ۳  ۵

۲۰۰

۱  ۲  ۳  ۵

۳۰۰

۲  ۵

۴۰۰

۱  ۳  ۴  ۵

۵۰۰

 

گام۱:ایجاد مجموعه اقلام ۱ عضوی:

  L 1مجموعه آیتمهای بزرگ:                                      مجموعه آیتمهای ۱ عضوی:

{۱}=۳                                                                               {۱}=۳

{۲}=۳                                                                               {۲}=۳

                            {۳}=۴                 →                      {۳}=۴

{۵}=۵                                                                               {۴}=۲

                              {۵}=۴

گام۲: ایجاد مجموعه آیتمهای دو عضوی با استفاده از مجموعه آیتمهای بزرگ ۱ عضوی:

L2مجموعه آیتمهای بزرگ دو عضوی:                           مجموعه آیتمهای ۲ عضوی:

{۱,۳}=۳                                                                          {۱,۲}=۱

{۲,۵}=۳                                                                          {۱,۳}=۳

                            {۳,۵}=۳                 →                  {۱,۵}=۳

{۱,۵}=۳                                                                          {۲,۳}=۲

                             {۲,۵}=۳

                                 {۳,۵}=۴

گام۳:ایجاد مجموعه آیتمهای سه عضوی با استفاده از مجموعه آیتمهای بزرگ دو عضوی:

مجموعه آیتمهای بزرگ سه عضوی:                           مجموعه آیتمهای ۳عضوی:L3

                   {۱,۳,۵}=۳           {۱,۳,۵}=۳                          →

 

Answer=L1 U L2 U L3={{1} {2} {3} {5} {1,3} {2,5} {3,5} {1,5} {1,3,5}}

از شما دوستان عزیز که این مطلب آموزشی را دنبال نموده اید تشکر می کنیم و شما را دعوت میکنیم که برای فراگیری داده کاوی مطالب ما را دنبال کنید.این مطالب برای افزایش دانش شما در سایت قرار داده شده و کمک زیادی در یادگیری شما در انجام پروژه داده کاوی خواهد نمود.

فریلنسر هستم و مهارت انجام پروژه ای را دارم!

اگر شما فریلنسر هستید و توانایی انجام پروژه ای را در یک رشته یا حوزه ای خاص دارید برای فعالیت در سایت کافه پروژه و کسب درآمد می توانید در سایت ثبت نام کنید و پروژه هایی با مهارت انتخاب خود را مشاهده کنید.جهت ثبت نام و ثبت رزومه خود در سایت از طریق دکمه پایین صفحه در سایت عضو شوید:

نحوه سفارش پروژه در سایت کافه پروژه :

اگر پروژه ای دارید که میخواهید آن را برون سپاری کنید کافی است در سایت کافه پروژه ثبت نام کنید و پروژه خود را ثبت نمایید.پروژه شما هر چه که باشد حتما مجری برای آن وجود دارد.جهت ثبت نام و ثبت سفارش پروژه خود برروی دکمه زیر کلیک نمایید.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *