داده کاوی، یک ابزار آنالیز مدیریتی
داده کاوی ،یک ابزار آنالیز مدیریتی
Data Mining an Analysis Implement Managemental
تهيه و تنظيم : قربان مقدم زرزری
مقدمه
پيشينه طرح موضوع دادهكاوي به دهه 1980 و به صورت جدي، به دهه 1990 برميگردد. پيش از آن٬ از سيستمهاي جمعآوري و مديريت دادهها و اصطلاحاً لايروبي دادهها استفاده ميشد٬ اما به مرور زمان٬ استخراج و كشف سريع و دقيق اطلاعات با ارزش و پنهان از پايگاه دادهها بهعنوان دادهكاوي مورد توجه قرار گرفت. به اين شكل بود كه فرايند دادهكاوي به عنوان فرايند آماري و تجزيه و تحليل درفرايند كشف دانش در پايگاه دادهها (KDD) پررنگ شد ،به حدي كه گاه٬ دادهكاوي (DM) بهعنوان مترادف كشف دانش در پايگاه دادهها(KDD) مورد استفاده قرار ميگرفت[2]. امروزه فرايند استخراج اطلاعات معتبر٬ از پيش ناشناخته٬ قابل فهم و قابل اعتماد از پايگاه دادههاي بزرگ و استفاده از آن در تصميمگيري و در فعاليتهاي تجاري دادهكاوي ناميده ميشود[1]. در تعاريف متعدد و متنوع براي دادهكاوي برموضوعاتي نظير: استخراج دانش كلان٬ كاوش در دادهها٬ تجزيه و تحليل دادهها و يافتن روابط و الگوهاي مطمئن بين دادهها تاكيد ميشود. هدف نهايي دادهكاوي٬ ايجاد سيستمهاي پشتيباني تصميمگيري سازماني است. دادهكاوي به استخراج اطلاعات مفيد و دانش از حجم زياد دادهها ميپردازد. دادهكاوي٬ الگوهاي حاوي اطلاعات را در دادههاي موجود جستوجو ميكند. اين الگوها و الگوريتمها، ميتوانند توصيفي باشند يعني دادهها را توصيف كنند و يا جنبه پيشبيني داشته باشند، يعني از متغيرها براي پيشبيني ارزشهاي ناشناخته ساير متغيرها بهكار روند. دادهكاوي توصيفي، بهدنبال يافتن اگرها در فعاليتها يا اقدامات گذشته است و دادهكاوي پيشبينانه با نگاه به سابقه٬ رفتار آینده را پيشبيني ميكند[1].
حوزه فعالیتهای داده کاوی
هدف دادهكاوي٬ تجزيه و تحليل اكتشافي دادهها٬ كشف الگوها و قواعد و الگوريتمها٬ مدلسازي پيشبينانه وجستوجوي انحرافات است. براي انجام اين هدف٬ فرايند دادهكاوي درجهت كشف دانش درمراحل مختلف انجام ميشودكه عبارت است از:
1. شناسايي هدف و فهم حوزه كاربرد آن است و مشخص ميكند كه چهكاري٬ در چه حوزهاي انجام خواهد شد.
2. انتخاب دادهها يعني تعيين اهداف براي تجزيه و تحليل و كشفآن
3. آمادهسازي دادهها شامل تميزسازي دادهها
4. اتخاذ بهترين روش دادهكاوي براي دستيابي به اهداف
5. اجراي دادهكاوي يعني بهكارگيري الگوريتم
6. ارزيابي و اعتبارسنجي يافتهها
7. استفاده از نتايج و تثبيت وتحكيم دانش كشف شده
8. تصميم گيري براساس دانش كشف شده
اکتشاف در این مرحله معمولا با آماده سازی داده ها که ممکن است شامل تمیز کردن داده ها ، تبدیل داده ها ، زیر مجموعه های انتخاب آثار ضبط شده و انجام برخی از عملیات اولیه انتخاب شروع می شود . سپس بسته به ماهیت تحلیلی ، این مرحله از فرایند استخراج داده ها ممکن است شامل هر انتخاب ساده و سرراست برای یک مدل رگرسیون استادانه درست شده را به تجزیه و تحلیل اکتشافی با استفاده از طیف گسترده ای از روش های گرافیکی و آماری به منظور شناسایی متغیرهای مربوطه و تعیین پیچیدگی از طبیعت مدل ها باشد. البته ناگفته نماند که داده کاوی معمولا با نوشتن مقدار زیادی گزارش و تحقیق و استعلام در آنها اشتباه گرفته می شود. اما در واقع داده کاوی هیچ کدام از اینها را شامل نمی شود. داده کاوی توسط تجهیزات خاصی صورت می پذیرد، که عملیات کاوش را بر اساس تجزیه و تحلیل مکرر داده ها انجام می دهد. داده کاوي با آنالیز های متداول آماری نیز متفاوت است؛در زیرمی توان برخی ازاصلی ترین تفاوت های داده کاوي و آنالیز آماری را مشاهده نمود:
آنالیز آماری:
• آمار شناسان همیشه با یک فرضیه شروع به کار می کنند
• آنها از داده های عددی استفاده می کنند
• آمارشناسان بایدرابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است
• آنها می توانند داده های نابجا و نادرست را در طول آنالیز مشخص کنند
• آنها می توانند نتایج کار خودرا تفسیر و برای مدیران بیان کنند
داده کاوی :
• به فرضیه احتیاجی ندارد
• ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می تواننداستفاده کنند
• الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد میکنند
• داده کاوی به داده های صحیح و درست نیاز دارد
• نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد
جهت درک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناخت کلاهبرداری های شرکت بیمه می باشد، توجه کنید.
روش آنالیز آماری :
یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. براساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگرنتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگری مجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسرنیز بستگی دارد.مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.
روشداده کاوی :
یک مفسر سیستم های داده کاوی را ساخته و پس از طی مراحلی ازجمله جمع آوری داده ها، یکپارچه سازی و اخلاص داده ها به انجام عملیات داده کاوی می پردازد. داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند. نتایج داده کاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. درنهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیش بینی نمایند.
تحلیلهاي دادهکاوي به دو روش با ناظر و بدون ناظر و از طریق الگوریتم هایی چون شبکه هاي عصبی(NN)، طبقه بندي و درخت تصمیم (C&RT)، ژنتیک، تحلیل سبد خرید، شبکه کوهونن قابل اجراست. علاوه بر این الگوریتمهاي رایج، همچنان الگوریتمهاي جدیدي براي اهداف تحقیقات علمی یا تجاري از طریق طرحهاي پژوهشی دانشگاهی، تولید میشود. ویژگیهاي منحصر بفرد داده کاوي را می توان به صورت زیر برشمرد[3]:
· نه تنها بر فاز تحلیل، بلکه بر طراحی مطالعه و جمع آوري داده نیز تاثیر می گذارند
· امکان جستجوي پاسخ سؤالات دقیق و با پیچیدگی بالا را در داده هاي جمعآوري شده فراهم می کنند.
· قادرند که به سؤالات بطور واضح و مشخص پاسخ دهند. مزیت اصلی و تفاوت آنها با سایر تکنیکها نیز در همین است که بجاي ارائه صرف استراتژي کلان، پاسخهاي دقیق در اختیار محقق قرار می دهند.
· امکان سنجش اثر متغیرهاي مختلف بر روي متغیرهاي وابسته را فراهم می کنند.
· به مدیران کمک میکنند که تأثیر سناریوهاي آتی را مورد ارزیابی قرار دهند و با مدلسازي گزینه هاي متعدد و کمک به تصمیم گیري در شرایط عدم قطعیت به انتخاب مسیر حرکت بپردازند.
محققینی که تنها روابط دو به دو را در نظر میگیرند و از داده کاوی استفاده نمی کنند، ابزار قدرتمندی را از دست می دهند که می تواند اطلاعات سودمندی را در اختیار آنان قرار دهد. در مسائل واقعی چندین متغیر به طور همزمان بر روي پاسخ تاثیر می گذارند، از این رو آنالیزهاي چندمتغیره جواب هاي دقیقتر و نزدیک به واقع تري را فراهم می کند. در شکل (1) فرایند کسب دانش از پایگاه دادهها به صورت شماتیک بیان شده است[4] همانطور که ملاحظه می شود یکی از گام هاي این فرایند، داده کاوي می باشد. موفقیت در این مرحله کاملا متاثر از سه گام قبل است بگونه اي که اگر هر کدام از مراحل قبلی به درستی انجام نپذیرد، نتایج حاصل از داده کاوي نه تنها مفید نبوده ممکن است گمراه کننده نیز باشد.

شکل (1): فرآیند تبدیل داده ها به دانش
تکنیکهاي داده کاوي از جمله تکنیکهاي نوین علمی هستند که در توصیف، تشریح، پیش بینی و کنترل پدیدهها به کار می روند[3]. این تکنیکها به اندازهگیري، تشریح و پیشبینی درجه وابستگی میان متغیرها میپردازند. روشهاي دادهکاوي نه تنها بر جنبه هاي تحلیلی مطالعات، بلکه در طراحی و ابزارهاي جمع آوري داده براي تصمیمگیري و حل مسائل نیز تأثیر میگذارند. موفقترین پروژههاي دادهکاوي، در چارچوب فرآیند استانداردي اجرا می شودکه توسط یک تیم کاري در شرکت SPSS در قالب پروژهاي به نام CRISP-DM ارائه شده است[5]. برطبق CRISP-DM یک پروژه دادهکاوی معین شامل چرخه حیاط شش مرحلهای است که توالی مراحل را نشان می دهد شکل (2). هر مرحله از ترتیب مراحل اغلب نتیجه وابستگی مراحل قبلی را نیز دربر دارد. مهمترین وابستگی بین مراحل نمایش پیکانها می باشد. خاصیت تکراری CRISP حاکی از چرخه بیرونی است که اغلب منجر به راه

شکل(2) CRISP–DM در فرایند تکرار و سازگاری مراحل
حلی برای مسئله تحقیقی یا تجاری با سوالات اضافی جالب توجه می شود. در زیر مراحل کاری در دادهکاوی را توضیح میدهیم:
مرحله درک پروژه و فهم حوزه کاربرد: اولین مرحله پردازش استاندارد CRISP–DM می باشد که به صورت آشکار اهداف و نیازمندیها آن مشخص می شود. ترجمه اهداف و محدودیت آن در قاعدهسازی، تعریف مسئله دادهکاوی و مهیا کردن استراتژی اولیه برای نائل شدن به اهداف تعریف میشود.
مرحله انتخاب دادها : این مرحله شامل جمع آوری دادها برای استفاده از تحلیل اکتشافی و مشخص کردن اطلاعات اولیه برای ارزیابی دادههای با کیفیت و انتخاب دادهای مفید و مورد نیاز می باشد.
مرحله آماده سازی دادهها: آماده کردن دادههای اولیه خام به دادههای نهایی، این دادها در کلیه مراحل بعدی استفاده می شود و از این نظر این مرحله تحلیل و تلاش بیشتری را می طلبد. انتخاب عناصر و شناسههای تحلیل شده را برای کاوش دادهها اختصاص می دهیم. و با تمیز کردن دادهای خام آن را برای ابزارهای مدلسازی آماده میکنیم.
مرحله مدلسازی: با انتخاب و بهکار بستن تکنیکهای مدلسازی مناسب و روش دادهکاوی معین نتایج مدلسازی را بهینه میکنیم که در صورت نیاز می توانیم با برگشت به عقب تحلیل مدلسازی را بهینه تر نماییم.
مرحله ارزیابی: مشخص کردن اینکه آیا مدل انتخابی، ما را به اهدافمان که در اولین مرحله تعیین کردیم میرساند. اتخاذ تصمیم راجع به استفاده از نتایج دادهکاوی برای اعتبارسنجی نیز در این مرحله انجام میشود.
مرحله تحکیم و گسترش :استفاده کردن از مدل ایجاد شده، برای مثال می تواند تولید یک گزارش ساده از خروجیها را نام برد، و برای یک مثال پیچیده تکمیل کردن پردازش دادهکاوی موازی در سایر حوزهها می باشد که این الگوها به یک دانش مفید و قابل استفاده تبدیل می شوند و پس از بهبود آنها، الگوهایی که کارا محسوب میشوند در یک سیستم اجرایی به کار گرفته خواهند شد.
نتیجه گیری
بررسی اجمالی پژوهشهاي صورت گرفته در حوزه دانش ابزراهای دادهکاوی نشان می دهد که تحقیقات عمیق و اساسی در این باره خصوصاً در ایران اندك شمار است. از سوي دیگر با افزایش سرعت تحول در علوم، ضرورت استفاده از دانشهاي نوین بیش از پیش محرز شده است . داده کاوي به عنوان یک رشته علمی نوین در زمینه بازیابی و استخراج اطلاعات می تواند نقش مهمی در جهت دستیابی به این اهداف داشته باشد. امروزه اکثر نرم افزار های پایگاه داده ای مثل ORACLE و SQL Server نیز شامل ابزارهایی داده کاوی شده اند ولی نرم افزار های تخصصی دادهکاوی همچون Intelligent Miner , Darwin , Mine Set, Knowledge Studio, Data Mind از مهمترین ابزار های داده کاوی به شمار می روند. در این مقاله قابلیتهاي داده کاوي و مراحل کاری آن معرفی شد که در گامهای بعد می توان تأثیر آن را در عمل آزمود.
مراجع
[1] B. Fernandez / Et. Al., "Knowledge Management"/ Cho. 12, 2004.
[2] N.Balac/ "Introduction To Data Mining" , 2006
[3] Hair ،Joseph F., "Multivariate Data Analysis", Prentice Hall, 2005.
[4] Daniel T. Larose, "Discovering Knowledge in Data: An Introduction to Data Mining" , 2004 .
[5] www.spss.com/CRISP DM/ Downloads
[6] Pang-Ning Tan, Steinbach, "Introduction to Data Mining", 2005 .
+ نوشته شده در چهارشنبه بیست و ششم اسفند ۱۳۸۸ ساعت 10:46 توسط NasseR TrojaN
|
وبلاگ اختصاصی دانشجویان مهندسی صنایع دانشگاه باهنر کرمان