دانلود تحقیق داده کاوی (Data Mining)

دانلود تحقیق داده کاوی (Data Mining) با فرمت ورد ودر 118 صفحه قابل ویرایش

قسمتی از متن تحقیق

 

فهرست مطالب

فصل اول/تعریف داده کاوی

1-1نعاریف داده کاوی2

1-2 مراحل فرایند کشف دانش از پایگاه 4

1-3 تاریخچه داده کاوی8

1-4 کارکرد داده کاوی9

1-5 مفاهیم اساسی در داده کاوی11

1-6 داده کاوی چگونه کار می کند12

1-7 قابلیتهای داده کاوی13

فصل دوم/کاربرد داده کاوی

2-1 مثالی کلاسیک از کاربرد داده کاوی17

2-2داده کاوی و آمار18

2-2-1 تفاوت داده کاوی و آنالیز آمار18

2-2-2 آنالیز آماری19

2-2-3 روش آنالیز آماری 19

2-3 فواید و نقش داده کاوی در فعالیت شرکت ها20

2-4 کاربرد داده کاوی در کتابخانه ها و موسسات دانشگاهی21

2-4-1 پیشرفت در تکنولوژی داده پردازی23

2-4-2 عناصر داده کاوی24

2-4-3 فنون داده کاوی25

2-5 پروژه داده کاوی پیوند27

2-6 داده کاوی و کاربرد آن در کسب و کار هوشمند بانک29

2-6-1 بازاریابی 30

2-6-2 مدیریت ریسک31

2-6-3 تشخیص تقلب31

2-6-4 به دست آوردن و حفظ مشتری31

2-7 فرصت و چالش های داده کاوی در شهر الکترونیکی32

2-7-1 داده کاوی چیست36

2-7-2 زمینه و تکامل تدریجی داده کاوی در شهر الکترونیک37

2-8 کاربرد داده کاوی در شهر الکترونیکی39

2-8-1 کشف علايق و انگيزه­هاي شهروندان و توليد سرويس­هاي شخصي­سازي39

2-8-2 تجديد ساختار سايت وب شهر و افزايش کارايي سيستم40

2-8-3 تقويت برنامه­ريزي­هاي دولت و ترويج نو­آوري41

2-8-4 بهبود تحليل­ها و تصميمات دولت42

2-9 کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی43

2-9-1 مدیریت و خدمات کتابخانه43

2-9-2 تذکرات نهایی47

2-10 الگوريتم هاي داده كاوي براي طبقه بندي دانشجويان49

2-10-1 نتیجه های آزمایشی51

2-11 مشكلات تجاري براي داده كاوي52

2-11-1 روش كار داده كاوي53

فصل سوم/الگوریتم های داده کاوی

3-1 استخراج الگوريتم ها(تجزيه و تحليل سرويس ها-داده كاوي) 56

3-2 انواعي از الگوريتم ها داده كاوي56

3-2-1 بکار بردن این الگوریتم ها57

3-3 جرئیات الگوریتم58

3-4 طراحي SPAM59

3-4-1 ابزاري براي کاوش در شبکة گستردة جهان59

3-4-3 داده‌كاوي61

3-5 معماري يك سيستم داده‌كاوي62

3-6 وب‌كاوي63

3-6-1 انواع عملياتي که در وب‌کاوي انجام مي‌شوند63

3-6-2 كاوش محتوايي وب 64

3-6-3 کاوش ساختاري وب64

3-6-4 کاوش کاربردی وب 67

3-6-5 روشها و ابزارهاي وب كاوي67

3-6-6 مقياسهاي اصلي براي مقايسه روشهاي وب كاوي69

3-7 انواع موتورهاي جستجو70

3-7-1 کاوشگر وب70

3-7-2 دروازه وب 71

3-7-3 مقايسة موتور جستجوهاي دروازه وب و کاوشگر وب73

فصل چهارم/نرم افزار های داده کاوی

4-1 نرم افزار داده کاوی SPSS Clementine 77

4-2 داده كاوي و OLAP77

4-2-1 داده كاوي موفق78

4-2-1-1 تحليل ارتباطات78

4-2-1-2 سلسله مراتبي از انتخاب ها82

4-2-2 طبقه بندي84

4-2-3 حدس بازگشتي 84

4-2-4 سري هاي زماني85

4-2-5 شبكه هاي عصبي85

4-2-6 درخت هاي انتخاب86

4-2-7 استنتاج قانون87

4-3 ساختن يك پايگاه داده داده كاوي87

4-3-1 جستجوي داده89

4-3-2 آماده سازي داده براي مدل سازي89

4-4 ساختن مدل داده كاوي89

4-4-1 ارزيابي و تفسير90

4-4-2 ايجاد معماري مدل و نتايج90

4-5 نرم افزارWeka 91

4-5-1 تعریف91

4-5-2 قابليتهاي95

4-5-3 دريافت Weka 96

4-5-3-1 مروري بر Explorer 96

4-5-3-2 به کارگیری فیلترها102

4-5-4 الگوريتم­‏هاي يادگيري107

4-5-5 رده بندهاي Lazy 109

4-5-6 خوشه110

4-5-7 منابع وابسته116

منابع131

 قسمتی از متن تحقیق

چکیده

در این تحقیق به صورت کلی از داده کاوی تعریف شده و به بررسی آن به صورت دقیق و کاربردی پرداخته شده است. در بخشی به نرم افزار هایی پرداخته شده است که بزرگترین کاربردها را در نرم افزار های داده کاوی دارد.و در نهایت به نرم افزار وکا پراخته شده است که با توجه به داده های موجود تمامی منوهای نرم افزار توضیح داده شده است.

و در نهایت با توجه به تحقیقات انجام گرفته در زمینه ی دانشگاهی و به کارگیری نتایج به دست آمده مدیران آموزشی می توانند مشاوره های لازم را برای پیشگیری از رسیدن دانشجویان به وضعیت بحرانی بکار گیرند.همچنین این مدل ها می توانند به عنوان یک ابزار پشتیبان تصمیم گیری در سیستم های آموزشی مورد بهره برداری قرار گرفته و نقش مهمی را در ارتقا سطح علمی دانشگاه ها داشته باشند.

 

 

فصل اول

 

داده کاوی چیست؟

 

 

 

 

 

 

1-1 تعاریف داده کاوی

داده کاوی(Data Mining)پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی،الگوشناسی،فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناساییالگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد،به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند.

داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند، بلکه دانش نهفته در داده ها قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود.

داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده میباشد.[1]

داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد.[2]

داده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات،وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد.[3]

داده کاوی در پایگاه های داده کوچک نیز بسیار پرکاربرد است و از نتایج و الگوهای تولید شده بوسیله آن در تصمیم گیری های استراتژیک تجاری شرکتهای کوچک نیز می توان بهره های فراوان برد. کاربرد داده کاوی در یک جمله را این گونه می توان بیان کرد : " داده کاوی اطلاعاتی می دهد، که شما برای گرفتن تصمیم هوشمندانه ای درباره مشکلات سخت شغلتان به آنها نیاز دارید" [1]

در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .

در متون آکادميک تعاريف گوناگوني براي داده کاوي ارائه شده اند . در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر ، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود موجود است . برخي از اين تعاريف عبارتند از :

  • داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم.
  • اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود .
  • داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها .
  • داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ .
  • داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها .

 

همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود ، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است .

داده كاوي معمولا به عنوان جستجو ،آناليز كردن ، باقيمانده از مقدار زيادي از داده براي يافتن ارتباط ،الگو ها يا هر همبستگي آماري معني داري ، تعريف مي شود.با پيدايش كامپيوتر ، پايگاه داده بزرگ و اينترنت ، آسانتر مي توان ميليون ، بيليون و حتي تريليون قسمت هاي از داده را جمع كرد كه مي تواند از روي قاعده آناليز انجام داد و به جستجو ارتباط ها وپيدا كردن راه حل در مششكلات مختلف كمك كرد.به علاوه دولتمندان در بيشتر خريد و فروش از داده كاوي در پيدا كردن الگو ها و ارتباط هاي توان مشتري استفاده مي كنند.سازمان هاي بزرگ و سازمان آموزشي نيز از داده كاوي براي فهميدن همبستگي پر معنا كه مي تواند در جامعه ما توسعه يابد ، استفاده مي شود.

نکته: همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است.

" داده کاوي فرآيندي است که طي آن با استفاده از ابزار های تحليل داده به دنبال کشف الگوها و ارتباطات ميان داده هاي موجود که ممکن است منجر به استخراج اطلاعات جديدي از پايگاه داده گردند، مي باشد."

در داده کاوي از بخشي از به نام تحليل اکتشافي داده ها استفاده مي شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکيد مي شودبنابراين مي توان گفت در داده کاوي تئوريهاي پايگاه داده ها، هوش مصنوعي، يادگيري ماشين وعلم آمار را در هم مي آميزند تا زمينه کاربردي فراهم شود.

بايد توجه داشت که اصطلاح داده کاوي زماني به کار برده مي شود که با حجم بزرگي از داده ها در حد گیگابایت يا ترابايت، مواجه باشيم که از این نظر یکی از بزرگترین بازارهای هدف، انبارجامع داده ها، مراکز داده وسیستم های پشتیبانی تصمیم برای بدست آوردن تخصص هایی در صنایعی مثل شبکه های توزیع مویرگی، تولید،مخابرات، بیمه و... می باشد.

نکته:در تعاریفی که از داده کاوی ارائه شد به اصطلاح "فرایند" اشاره شد. حتی در بعضی محیط های حرفه ای این نظر وجود دادرد که داده کاوی شامل انتخاب و بکارگیری ابزارهای مبتنی بر کامپیوتر برای حل مسائل فعلی و بدست آوردن یک راه حل بطور اتوماتیک و خودکار میباشد.

برای آموزش داده کاوی، باید بر مفاهیم و روش های اعمال شده برخلاف همه جاذبه های ابزارهای مبتنی بر کامپیوتر که امور رابا جزئیات ودستورات با فرمت های خاصی باید به خیلی از سوالات از جمله چگونگی طراحی واستفاده از فرایندها را پاسخ دادبه جای بیان جزئیات عملی ابزار مختلف داده کاوی تکیه نمود.

1-2 مراحل فرايند کشف دانش از پايگاه داده ها

فرايند کشف دانش از پايگاه داده ها شامل پنج مرحله است که عبارتند از:

  1. درک قلمرو یا بیان مسئله و فرموله کردن فرضیه
  2. انتخاب و جمع آوری داده ها
  3. تبديل داده ها
  4. کاوش در داده ها
  5. تفسير نتيجه یا تفسیر مدل و رسیدن به نتایج

 

 

 

 

 

 

 

 

 

 

شکل 1-1

بیان مسئله و فرموله کردن فرضیه:

در ابتداي امر پيش زمينه كشف دانش، فهم درست داده و مساله مي باشد. بدون اين فهم درست هيچ الگوريتمي صرف نظر از خبره بودن آن نمي تواند نتيجه مطمئني براي شما حاصل نمايد و داده را جهت كاوش آماده نموده يا نتايج را به طور صحيح تفسير نمود.براي استفاده بهتر از داده كاوي بايد يك بيان واضح از هدف داشت. در این مرحله انچه نیاز است ترکیبی از تخصص یک زمینه کاربردی و یک مدل داده کاوی است و شاید بتوان گفت یک تقابل نزدیک سر یک مسئله واحد و چندین فرضیه فرموله شده بین متخصصین داده کاوی و متخصصین کاربردی میباشد.

  1. انتخاب و جمع آوری داده ها:

این مرحله درارتباط با چگونگی تولید و جمع آوری داده ها است.

بطور کلی، دو امکان وجود دارد:

روش آزمون طراحی: زمانی است که فرایند تولید داده ها تحت کنترل یک متخصص کاربردی)مدل ساز سیستم( باشد.

روش دیداری: امکان دوم زمانی مطرح است که متخصص قادر به تولید فرآیند نیست یعنی تولید داده بصورت تصادفی در نظر گرفته شود.

پس از اینکه داده ها جمع اوری شدند یا در فرایند جمع اوری داده ها تا اندازه ای قرار گرفتند، توزیع نمونه گیری کاملا نامعلوم است.(یعنی داده هایی که بعدا برای تست و بکارگیری آن مدل بکار می روند از چند نمونه مشابه استفاده می شوند.)

نکته:براي فرايند داده کاوي داده ها ي مورد نياز موجود در انبار داده ها بايد انتخاب شوند. درک این مطلب که برای ارزیابی یک مدل که بعدا برای تست و بکارگیری آن مدل بکار می رود، موفقیت آمیز باشد، بسیار مهم است در غیر اینصورت نتایج درستی حاصل نمی گردد.

مثلا انبار داده ها شامل انواع مختلف و گوناگوني از داده ها است به عنوان مثال در يک پايگاه داده هاي مربوط به سيستم فروشگاهي، اطلاعاتي در مورد خريد مشتريان، خصوصيات آماري آنها،dispatcher ها (توزیع کنندگان)، مشتریان، حسابداري و ... وجود دارند که همه آنها در داده کاوي مورد نياز نيستند.

  1. پیش پردازش ها یا تبديل داده ها

زمانی که که داده هاي مورد نياز از پایگاه داده های موجود در انبار داده ها "جمع اوری" شدند و داده هاي مورد کاوش مشخص گرديدند، معمولا به تبديلات خاصي روي داده ها نياز است که شامل حداقل دو مرحله متداول می باشد:

  1. آشکارسازی ( حذف)داده های غیرعادی:

داده های غیرعادی یا غیر معمول درحقیقت داده های نتیجه سنجش خطاها، کدنویسی و ثبت خطاها است. دراینجا باید یا 1. داده های غیرعادی را تشخیص داد و خذف کرد ویا 2. باید روش های قوی مدل سازی رابگونه ای توسعه داد که نسبت به این نوع داده ها غیر حساس باشند.

2. ویژگی های مقیاس بندی، رمزگذاری و انتخاب:

در تبدیل داده ها توصیه میشود که داده ها را جهت تحلیل و بررسی مقیاس بندی و ورمزگذاری کرد. مثلا یک مشخصه با دامنه [0,1] ودیگری با دامنه [-100,1000] دارای ارزش مشابهی در تکنیک های اعلام شده نیستند. که در صورت نادیده گرفتن همین تفاوت در دامنه داده ها، روی نتایج نهایی داده کاوی تاثیر خواهند گذاشت.

  1. برآورد مدل یا کاوش در داده ها

در این مرحله داده هاي تبديل شده با استفاده از تکنيکها و عملياتهاي داده کاوي مورد کاوش قرار مي گيرند تا الگوهاي مورد نظر کشف شوند. یا به عبارتی دیگه، انتخاب و پیاده سازی تکنیک های داده کاوی در این مرحله صورت میگیرد. لبته این فرایند خیلی روشن و واضح نیست زیرا هنگام پیاده سازی ممکن است که مبتنی بر چندین مدل در یک فرآيند تكراريباشد. ( این مدل ها بطور کامل تر در مباحث مربوط به مفاهیم انواع دسته بندی،درختان تصمیم و قوانین تصمیم، شبکه های عصبی، انواع الگوریتم ها و ...پیاده سازی می شوند)

  1. تفسير نتيجه یا تفسیر مدل و رسیدن به نتایج

اطلاعات استخراج شده با توجه به هدف کاربر تجزيه و تحليل شده و بهترين نتايج باید در تصمیم گیری کاربر موثر مي باشند. هدف از اين مرحله تنها ارائه نتيجه (بصورت منطقي و يا نموداري)نيست، بلکه پالايش اطلاعات ارايه شده به کاربر نيز از اهداف مهم اين مرحله است .

هشدار: اگرچه تاکید بر مراحل 3و4 فرایند داده کاوی بیشتر است اما باید به این نکته توجه داشت که اینها فقط دو مرحله از یک فرایند پیچیده هستند.همه فرایند داده کاوی و تک تک مراحل بطور مجزا بسیار تکرار پذیر هستند.

هشدار : باید توجه داشت که بدون توجه به صحت و درستی مراحل 5گانه داده کاوی، ممکن است که مدل و داده حاصل انچنان معتبر نباشد.

1-3 تاريخچه داده کاوي

اخيرا داده کاوي موضوع بسياري از مقالات ، کنفرانس ها و رساله ها ي عملي شده است ، اما اين واژه تا اوايل دهه نود مفهومي نداشت وبه کار برده نمي شد .

در دهه شصت و پيش از آن زمينه هايي براي ايجاد سيستم ها ي جمع آوري و مديريت داده ها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت که منجر به معرفي و ايجاد سيستم هاي مديريت پايگاه داده ها گرديد .

ايجاد و توسعه مدلهاي داده اي براي پايگاه سلسله مراتبي ، شبکه اي و بخصوص رابطه اي در دهه هفتاد ، منجر به معرفي مفاهيمي همچون شاخص گذاري و سازماندهي داده ها و در نهايت ايجاد زبان پرسش SQL در اوايل دهه هشتاد گرديد تا کاربران بتوانند گزارشات و فرمهاي اطلاعاتي مورد نظر خود را ، از اين طريق ايجاد نمايند .

توسعه سيستم هاي پايگاهي پيشرفته در دهه هشتاد و ايجاد پايگاه هاي شي گرا ، کاربرد گرا(Application Oriented )و فعالباعث توسعه همه جانبه و کاربردي شدن اين سيستم ها در سراسر جهان گرديد . بدين ترتيب DBMS هايي همچون DB2 ، Oracle ، Sybase ، ... ايجاد شدند و حجم زيادي از اطلاعات با استفاده از اين سيستم ها مورد پردازش قرار گرفتند . شايد بتوان مهمترين جنبه در معرفي داده کاوي را مبحث کشف دانش از پايگاه داده ها ([4]KDD) دانست بطوري که در بسياري موارد DM و KDD بصورت مترادف مورد استفاده قرار مي گيرند .

همانطور که در تعريف داده کاوي ذکر شد ، هدف از جستجو و کشف الگوهايي در پايگاه داده ها و استفاده از آنها در اخذ تصميمات حياتي است ، بنابراين مي توان گفت که DM بخشي از فرايند KDD است که در نهايت به ايجاد سيستم هاي DSS[5] نقش داده کاوي در فرايند کشف دانش از پايگاه داده ها را نشان مي دهد .

براي اولين بار مفهوم داده کاوي در کارگاهIJCAI در زمينه KDD توسط Shapir مطرح گرديد . به دنبال آن در سالهاي 1991 تا 1994 ، کارگاههاي KDD مفاهيم جديدي را در اين شاخه از علم ارائه کردند بطوري که بسياري از علوم و مفاهيم با آن مرتبط مي باشد.

1-4 كاركرد داده كاوي

داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌كارگیری الگوهایی‌،‌احراز اعتبار می‌شوند . هدف اصلی داده كاوی پیش بینی است. ‌فرایند داده ‌كاوی شامل سه مرحله می باشد : 1. كاوش اولیه 2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید و 3. بهره برداری.

مرحله 1 : كاوش. معمولا‌این‌مرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،‌تبدیل داده ها‌و‌انتخاب زیرمجموعه‌هايي‌‌ از ركوردها‌با‌حجم‌عظیمی‌از‌متغييرها( فیلدها ) باشد . سپس با توجه‌به‌ماهیت‌مساله تحلیلی‌، این‌مرحله‌به‌مدل‌هاي‌‌ ‌پیش بیني ساده یا مدل‌های‌آماری‌و‌گرافیكی برای شناسایی متغیرهاي مورد نظر و تعیین پیچیدگی مدل‌ها برای استفاده در مرحله بعدی نیاز دارد .

مرحله 2:ساخت و احراز اعتبار مدل. این‌مرحله‌ به بررسی‌مدل‌هاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيش‌بيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیك‌های‌متعددی‌برای‌رسیدن‌به‌این‌هدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"‌نام گرفتند. بدین منظور مدل‌های مختلف برای مجموعه داده‌های یكسان‌‌به‌كار‌می‌روند ‌تا‌ كارآیی‌شان ‌با‌ هم مقایسه‌شود ،‌سپس مدلی كه‌بهترین كارآیی راداشته باشد‌، انتخاب می‌شود.‌این‌تكنیك‌ها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning.

مرحله 3 : بهره برداری. آخرین‌مرحله‌مدلی‌راكه‌درمرحله قبل‌انتخاب‌شده است، در داده‌های‌جدیدبه كار‌می‌گیردتا پیش‌بینی‌هاي‌خروجی‌های مورد انتظار را تولید نماید.

داده كاوی‌به‌عنوان‌ابزار‌مدیریت‌اطلاعات‌برای‌تصمیم گیری‌،‌عمومیت‌یافته‌است. اخیرا‌،‌توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.

با این وجود تفاوت عمده ای بین داده كاوی و EDAوجود ‌دارد‌. داده‌كاوی‌بیشتر‌به‌برنامه‌های‌كاربردی گرایش دارد تا ماهیت اصلی پدیده .به عبارتی‌داده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد .

و به عبارت ديگر

عمل داده کاوی از یک پایگاه داده به چند مرحله مشخص تقسیم می شود:

1. مرحله اول : تشکیل انبار داده .

با توجه به عنوان ، این مرحله برای تشکیل محیطی پیوسته و یک پارچه جهت انجام مراحل بعدی و داده کاوی در آن، انجام می گیرد.در حالت کلی انبار داده مجموعه پیوسته و طبقه بندی شده است که دائما در حال تغییر بوده و دینامیک است که برای کاوش آماده می شود.

2. مر حله دوم : انتخاب داده ها

در این مرحله برای کم کردن هزینه های عملیات داده کاوی، داده هایی از پایگاه داده انتخاب می شوند که مورد مطالعه هستند و هدف داده کاوی دادن نتایجی در مورد آنهاست.

3. مرحله سوم : تبدیل داده ها .

مشخص است برای انجام عملیات داده کاوی لزوما باید تبدیلات خاصی روی داده ها انجام گیرد ممکن است این تبدیلات خیلی راحت و مختصر مثل تبدیل byte به integer باشد یا خیلی پیچیده و زمان بر و با هزینه های بالا مثل تعریف صفات جدید و یا تبدیل و استخراج داده ها از مقادیر رشته ای و ... باشد.

4. مرحله چهارم : کاوش در داده ها .

در این مرحله است که داده کاوی انجام می شود.در این مرحله با استفاده از تکنیک های داده کاوی داده ها مورد کاوش قرار گرفته ، دانش نهفته در آنها استخراج شده و الگو سازی صورت می گیرد.

5. مر حله پنجم : تفسیر نتیجه .

در این مرحله نتایج و الگو های ارائه شده توسط ابزار داده کاو مورد بررسی قرار گرفته و نتایج مفید معیین می شود.

1-5 مفاهیم اساسی در داده كاوی

Bagging: این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بيني بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID)استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،‌یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ای‌خواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .

Boosting: این مفهوم برای تولید مدل‌های چندگانه (برای پیش بینی یا رده بندی)به كار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifierها را تولید خواهد كرد .

Meta-Learning: این مفهوم برای تركیب پیش بینی‌های حاصل از چند مدل به كار می‌رود.و هنگامی كه انواع مدل‌های موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی كرده اند.تجربه نشان می‌دهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. Meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.

1-6 داده كاوي چگونه كار مي كند؟

از زماني كه مقدار بزرگي از تكنولوژي اطلاعات به طور جداگانه سيستم هاي تحليلي و ارتباطي توسعه يافتند ، داده كاوي ارتباطي بين اين دو فراهم كرد.نرم افزار داده كاوي ارتباط ها و الگو ها رادر تبديل ذخيره شده داده تجزيه و تحليل مي كند كه بر اساس جستجو كاربراست.برخي انواع از نرم افزار تحليلي ، آماري ، يادگيري ماشين و شبكه هاي عصبي را فراهم مي كنند.معمولا هر چهار نوع از ارتباط ها موارد زير را جستجو مي كنند :

  • كلاسها: داده را به منظور استهاده در موقعيت گروهاي تصميم گيري ذخيره مي كند.براي مثال ، يك رستوران زنجيرهاي مي تواند اطلاعات خريد هاي مشتريان را زماني كه آنها بازديد مي كنند و چيزي كه معمولا سفارش مي دهند را تعيين كند.اين اطلاعات مي تواند به منظور كاهش ترافيك روزانه استفاده شود.
  • خوشه بندي: اصلاح داده از ميان ارتباط هاي منطقي يا حق تقدم مشتري گروه بندي شود. براي مثال ، داده مي تواند قطعات فروش يا رابطه مشتري را شناسايي كند.
  • پيوستگي: داده مي تواند رابطه را شناسايي كند.
  • الگو هاي مرتب: داده رفتار الگو ها و گرايش ها را پيش بيني مي كند.براي مثال ، در خرده فروشي تجهيزات بيروني مي تواند احتمال سبد خريد را بر اساس خريد هاي مشتري از كيسه خواب تا كفش هاي راه پيمايي را پيش بيني كند .[6]

داده كاوي شامل 5 عنصر مهم است:

  • استخراج،انتقال و بار گيري داده تبديل به سيستم انبار داده.
  • ذخيره و مديريت داده در سيستم پايگاه داده چند بعدي.
  • تامين كردن دسترسي داده در آناليز هاي تجاري و تكنولوژي اطلاعات حرفه اي.
  • آناليز داده از طريق نرم افزار هاي كاربردي.
  • معرفي كردن داده در فرمتي مفيد از قبيل گراف يا جدول.

1-7 قابليتهاي داده کاوی:

  • بايد توجه داشته باشيد كه داده كاوي يك ابزار جادويي نيست كه بتواند در پايگاه داده شما به دنبال الگوهاي جالب بگردد و اگر به الگويي جديدي برخورد كرد آن را به شما اعلام كند بلكه صرفا الگوها و روابط بين داده ها را به شما اعلام مي كند بدون توجه به ارزش آنها. بنابراين الگوهايي كه به اين وسيله كشف مي شوند بايد با جهان واقع تطابق داشته باشند.
  • به اين ترتيب شما مي توانيد از هدف خريد مردم بدون اينكه فاكتورهايي براي خريد كالاهاي خود در نظر بگيريد مطلع شويد؟
  • براي تضمين بدست آمدن نتايج با معني لازم است كه شما بتوانيد داده هاي خود را تحليل كنيد كيفيت خروجي شما به اطلاعات خارج از پايگاه داده(به عنوان مثال داده اي باارزشي كه متفاوت از داده هاي نوعي در پايگاه داده شماست) ستونهاي ظاهرا بي ارتباط يا با ارتباط نزديك به بقيه پايگاه داده(مانند تاريخ توليد يا انقضاي كالا) بستگي نزديكي دارند .الگوريتم بر اساس حساسيتشان به داده ها روشهاي متفاوتي دارند. اما غير عاقلانه است كه به محصول داده كاوي صرفا به براي تمام تصميم گيري هايمان تكيه كنيم.
  • داده كاوي بطور اتوماتيك و بدون رهنمايي قادر به كشف راه حل ها نيست. شما ترجيحا به جاي بيان يك هدف مبهم مانند "كمك به ارتقاي پاسخ دهي به در خواست ها mail من " شما بايد از داده كاوي براي يافتن خصيصه هاي افرادي كه
  • (1): به درخواست هاي شما پاسخ مي دهند

 

 



جهت کپی مطلب از ctrl+A استفاده نمایید نماید