داده کاوی پویا با استفاده از عامل هوشمند

 
حسین مرشدلو  : احمد عبدالله زاده بارفروش 
 
 
چکیده
امروزه بدلیل حجم بسیار بالای داده ها و نیاز به پردازش و استخراج پویای دانش موجود در داده ها، داده کاوی جریان داده-ها اهمیت بسزایی یافته است. طبقه بندی جریان داده ها نیز یکی از مهمترین شاخه های داده کاوی است که تاکنون روشهای مختلفی برای آن ارائه گردیده است. اکثر این روشها واکنشی عمل کرده و پس از وقوع تغییر مفهوم در جریان داده ها، مدل داده خود را با مفهوم جدید وفق می دهند. از آنجائیکه در دنیای واقعی بسیاری از رخدادها تکرار می شوند بنظر می رسدکه بتوان با استفاده از روشهای یادگیری، تغییرات احتمالی در جریان داده-ها را پیش بینی کرد.
 
 البته بدلیل غیرقابل پیش بینی بودن برخی رخدادها لازم است که روش ارائه شده، قابلیت واکنشی نیز داشته باشد. بنابراین روشی که بتواند بطور هوشمندانه تناسب خوبی بین رفتارهای واکنشی و پیش فعال برقرار نماید، قادر خواهد بود قابلیت انطباق خوبی با محیط داشته و موفق عمل نماید. از طرفی با توجه به خصوصیات عاملها همچون خودمختاری، واکنشی، پیش  فعالی، یادگیری و قابلیت استدلال، بطور قطع مساله طبقه بندی جریان داده ها بستر مناسبی برای استفاده از قابلیت های عامل ها می باشد. در این مقاله روشی برای طبقه بندی جریان داده ها با استفاده از عامل ارائه گردیده است که در آن از خصوصیات عاملها استفاده شده است. 
 
در این روش عاملها قبل از وقوع تغییرات در جریان داده، بکمک استدلال و دانشی که از محیط بدست آورده اند، تغییرات را پیش بینی کرده و بر اساس آن برنامه ریزی می کنند. در صورتیکه رخدادهای پیش بینی شده اتفاق نیفتند، عامل متناسب با وضعیت فعلی از خود رفتار واکنشی نشان می دهد. این ویژگیها عامل را قادر می سازد که در محیط، یک رفتار هوشمند از خود نشان دهد. روش مورد نظر بر روی مجموعه داده های استاندارد که در اکثر کارهای انجام گرفته برای طبقه بندی جریان داده ها مورد استفاده قرار گرفته-اند، تست گردیده و نتایج حاصل از انجام آزمایشات نشان دهنده برتری استفاده از یک رفتار هوشمند پیش فعال نسبت به یک رفتار واکنشی می باشد.
 
 
کلمات کلیدی:

عامل

طبقه بندی

رفتار واکنشی

رفتار پیش فعال

داده کاوی جریان داده ها

 
 
مقدمه
امروزه بدلیل حجم گسترده و بسیار زیاد داده های موجود و همچنین عدم امکان ذخیره سازی آنها و نیاز به پردازش و استخراج پویای اطلاعات و دانش نهفته در داده ها، بحث داده کاوی جریان داده ها (Data Stream Mining) طی سالهای اخیر بسیار مورد توجه قرار گرفته است. از جمله کاربردهای داده کاوی جریان داده ها می توان به استفاده در بحث تشخیص تقلب در کارتهای اعتباری، بحث پردازش ترافیک شبکه و ... اشاره کرد. در این میان بحث طبقه بندی جریان داده ها از اهمیت بسزایی برخوردار است و کارهای متعددی در این زمینه انجام گرفته است که از آن جمله می توان به موارد ]4،7،10،11،12[ اشاره کرد.
 
 یکی از مهمترین مباحثی که در بحث طبقه بندی و داده کاوی جریان داده ها وجود دارد ، بحث مربوط به تغییر مفهوم (concept drift) می باشد که بمعنی تغییر مدل یا مفهوم نهفته در پس داده های یک جریان داده می باشد، به این معنی که مدلهایی که از یک جریان داده در یک زمان خاص ساخته می شوند ، با گذشت زمان دقت خود را از دست داده و قادر به طبقه بندی صحیح داده ها با دقت لازم نیستند. اکثر روشهایی که تاکنون برای مدیریت تغییر مفهوم در داده ها ارائه گردیده اند، بصورت واکنشی عمل کرده و سعی می کنند، همواره مدل داده خود را با مفهوم های جدید در داده ها وفق دهند. بررسی و مرور جامعی بر این روشها را می توان در [9] مشاهده کرد.
 
 از آنجایی که این روشها تنها از یک مدل داده استفاده می کنند، بحث دقیق نگه داشتن این مدل داده هنگامی که تغییر مفهوم در جریان داده وجود دارد، امری دشوار و مشکل می-باشد، لذا بنظر می رسد در صورت وجود تغییر مفهوم در داده استفاده از چند مدل داده مختلف متناسب با مفاهیم مختلف بر استفاده از یک مدل داده واحد برتری داشته باشد، اما مشکلی که وجود دارد تصمیم گیری درست در مورد استفاده از مدل داده مناسب در هر لحظه است. برخی روشها یا الگوریتمها همانند [7] که از چند مدل داده استفاده می کنند، برای بالا بردن دقت خود در طبقه بندی از روشهای Ensemble کردن چندین طبقه بند مختلف بهره می گیرند. برای مثال در ][7] طبقه بندهایی در بازه های زمانی مختلف بر روی داده هایی از جریان داده ایجاد می گردند.
 
الگوریتم این طبقه بندها را بر روی اخیرترین داده ها اعمال می-کند و بسته به دقت این طبقه بندها به هر کدام وزنی تخصیص می-یابد تا برای جریان داده های فعلی بکار گرفته شوند. در واقع اشکالی که روشهای Ensemble کردن دارند این است که نحوه انتخاب درست طبقه بندها برای Ensemble کردن نیز ساده تر از مشکل قبلی (انتخاب درست طبقه بند مناسب با مفهوم جاری موجود در جریان داده ) نمی باشد. رویکردهایی همانند رویکرد [7] اگر چه قادر به ارائه عملکرد قابل قبولی بر روی جریان داده هایی که در آنها تغییر تدریجی مفهوم وجود دارد می باشد، اما در مواردی که جریان داده دارای تغییر مفهوم ناگهانی (Concept shift) باشد، خطای این روشها زیاد می باشد.
 
 
 
فهرست مطالب
داده کاوی پویا با استفاده از عامل هوشمند 1
چکیده 1
کلمات کلیدی 2
ABSTRACT 3
1- مقدمه 4
2- مفاهیم پایه 6
شکل (1) پنجره نظاره بر روی جریان دادهها 7
2-2- عامل و ویژگیهای آن 8
3- رویکرد پیشنهادی 9
3-1-1- روش مقایسه طبقهبند ایجاد شده با طبقهبندهای موجود در حافظه 10
شکل (2) نسبت واریانس به حاصاضرب 50 متغیر دارای مجموع ثابت 11
شکل (3) وزندهی چند داده مختلف 12
3-2- رفتار پیشفعال 12
3-2-1- نحوه پیشبینی مفهوم آتی 14
3-3- ترکیب رفتارهای واکنشی و پیشفعال 15
شکل (5) شبه کد برای تعیین مقدار k 18
4- آزمایشات انجام شده 18
شکل (6) شبیه سازی تغییر مفهوم تدریجی در مجموعه داده استاندارد Hyperplane 19
4-2- نتایج 20
شکل (7) نتایج حاصل از انجام آزمایش بر روی Stagger 20
شکل (8) نتایج حاصل از انجام آزمایش بر روی Hyperplane با تغییر مفهوم تدریجی 21
5- جمع بندی 21
6- مراجع 22