پاورپوینت پاورپوینت دادهکاوي جرياندادهها با درختهاي تصميمگيري (pptx) 18 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 18 اسلاید
قسمتی از متن PowerPoint (.pptx) :
1
دادهکاوي جرياندادهها با درختهاي تصميمگيري
2
کلاسه بندی
فرايندی دو مرحله ای است :
ساخت مدل :
تحليل يک مجموعه آموزشی که مجموعهای از تاپلهای پايگاه است و مشخص کردن برچسب کلاسهای مربوط به اين تاپلها .
يک تاپل X با يک بردار صفت X=(x1,x2,…,xn) نمايش داده میشود . فرض می شود که هر تاپل به يک کلاس از پيش تعريف شده متعلق است .
هرکلاس با يک صفت که به آن صفت برچسب کلاس میگوييم مشخص میشود .
مجموعه آموزشی به صورت تصادفی از پايگاه انتخاب می شود .
به اين مرحله ، مرحله يادگيری نيز می گويند .
استفاده از مدل :
از طريق يک تابع y=f(X) برچسب کلاس هر تاپل X از پايگاه را پيش بينی می شود .
اين تابع به صورت قواعد کلاسهبندی ، درختهای تصميم گيری يا فرمولهای رياضی است .
3
درخت های تصميم گيری
يکی از روش های کارآمد و با کاربرد گسترده کلاسه بندی است .
مدل حاصل از اين روش به صورت درختهای تصميم گيری است :
هر گره در اين درخت نشان دهنده يک آزمون بر روی يک صفت است .
هر شاخه خارج شونده از يک گره نشان دهنده خروجی های ممکن آزمون است .
هر برگ نشان دهنده يک برچسب کلاس است .
نحوه استفاده از درخت تصميم گيری :
اگر تاپلی چون X که برچسب کلاس آن نامشخص است داشته باشيم صفات اين تاپل در درخت مورد آزمون قرار می گيرند و يک مسير از ريشه به سمت يک برگ که برچسب يک کلاس را دارد ايجاد می شود .
4
مجموعه داده های آموزشی
5
درخت تصميم گيری برای buys_computer
age?
overcast
student?
credit rating?
no
yes
fair
excellent
<=30
>40
no
no
yes
yes
yes
30..40
6
الگوريتم برای درخت های تصميم گيری
الگوريتم پايه
درخت به صورت بالا-پايين بازگشتی ساخته می شود .
در آغاز تمام مجموعه آموزشی در ريشه قرار دارند .
فرض می کنيم صفات مقادير گسسته دارند .
صفات به صورت بازگشتی بر حسب صفات انتخاب شده بخش بندی می شوند .
صفات آزمون بر اساس يک روال هيوريستيک مانند بهره اطلاعاتی ، شاخص جينی يا نسبت بهره انتخاب می شوند .
شرايط توقف الگوريتم
تمام نمونه های مربوط به يک نود متعلق به يک کلاس باشند .
صفتی برای بخش بندی بيشتر باقی نمانده باشد .
نمونه ای باقی نمانده باشد .
7
چالش ها
روش های ساختن درختان تصميم گيری فرض می کنند که تمام مجموعه آموزشی به طور همزمان می تواند در ديسک ذخيره شود .
روش های مذکور بصورت پياپی مجموعه آموزشی را از ديسک می خوانند .
هدف : طراحی درخت های تصميم گيری که هر نمونه آموزشی را فقط يکبار بخواند زمان کوتاه ثابتی را برای پردازش آن صرف کند .
8
نکات کليدی
برای يافتن بهترين صفت در هر گره ، در نظر گرفتن يک زيرمجموعه کوچک از نمونه های آموزشی که از آن گره عبور می کنند کافی است .
با در دست داشتن جريانی از نمونه ها ، اولين نمونه ها برای انتخاب صفت ريشه استفاده می شوند .
با تعيين شدن صفت ريشه ، نمونه های بعدی به سمت پايين و برگهای مربوطه عبور داده می شوند تا برای انتخاب صفت در آنجا استفاده شوند .
اين عمل به صورت بازگشتی تکرار می شود .
چه تعداد نمونه در هر گره لازم است ؟
از يک نتيجه آماری به نام Hoeffding bound استفاده می کنيم .
9
Hoeffding Bound
يک متغيير تصادفی با نام r که دارای مقادير حقيقی و برد R است را در نظر بگيريد .
فرض کنيد که n مشاهده مستقل از اين متغير انجام میدهيم .
ميانگين اين مشاهدات :
Hoeffding Bound نشان میدهد که ميانگين واقعی متغير r بعد از اين n مشاهده با احتمال 1-δ حداقل برابر –ε است که در آن :