پاورپوینت کنکاو وب (pptx) 14 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 14 اسلاید
قسمتی از متن PowerPoint (.pptx) :
بنام خدا
کنکاو وب ( Web Mining )
مقدمه
ظهور وب جهاني (WWW) کاربران کامپيوتر خانگي را با جرياني وحشتناک از اطلاعات مواجه کرده است.
تقريباً هر موضوعي مي تواند بياد آورده شود , يکي مي تواند تکه هاي اطلاعات را که توسط ديگر شهروندان اينترنت قابل دسترس مي شوند را پيدا کند, تنظيم کردن کاربران شخصي که ليستي از مجموعه رکورد هايشان را , براي شرکت هاي خاص که در وب تجارت مي کنند مي فرستند
مقدمه
کاربران وب به کمک عامل هاي نرم افزاري مصنوعي توانايي حريف شدن با فراواني اطلاعات قابل دسترس را دارند.
عامل ها :
پيدا کردن
مرتب کردن
فيلتر کردن اطلاعات قابل دسترس
کنکاو وب
کنکاو محتوي وب
کاربردي از تکنيک هاي کنکاو داده براي متن بي ساخت يا نيمه ساخت يافته , به طور نمونه مستندات HTML
کنکاو ساختار وب
استفاده ساختار ابر پيوند وب همانند يک منبع اطلاعات (اضافي)
کنکاو استفاده وب
تحليل تقابل کاربر با يک سرور وب
خواص گراف وب
وب ممکن است به عنوان يک گراف ( مستقيم) با مستندات به عنوان گره ها و ابرپيوند ها به عنوان لبه ها مشاهده شوند
درجه هاي وارده ( تعداد پيوندهاي ورودي ) و درجه هاي خارجه ( تعداد پيوند هاي خروجي ) از پخش قانون قدرت پيروي مي کنند .
مقدار 2.45 =inγ : درجه هاي وارده
مقدار= 2.1 outγ : درجه های خارجه
خواص گراف وب
داده ها را از جستجو در آلتاويستا ( سايت جستجو) با 2003 ميليون URL و 1466 ميليون لينک , و ساختار گراف زيرين را در يک سرور اتصال ذخيره کردند , که يک مستند کارامد تکنيک ايندکس گذاري را پياده سازي مي کند
اجازه دسترسي سريع به ابر پيوند صادر شونده و هم وارد شونده يک صفحه را مي دهد.
گراف داخلي GB 9.5 از حافظه را پر کرد , و يک جستجوي سطح اول که به 100 ميليون گره رسيد در حدود 4 دقيقه طول کشيد.
خواص گراف وب
نتيجه اصلي شان يک تحليل از ساختار گراف وب است که بر طبق آن ها , بند قوس بزرگ , با يک قطعه هسته وصل شده قوي (SCC) 56 ميليون صفحه در وسط , و دو قطعه با 44 ميليون صفحه در تمام کنارها, يکي شامل صفحاتي است که SCC مي تواند برسد ( بخش داخلي )
ديگري شامل صفحاتي است که از SCC مي تواند برسد( بخش خارجي
لوله هايي وجود دارد که رسيدن به بخش خارجي از بخش داخلي بدون پاس کردن از طريق SCC را اجازه مي دهد , و پيچک هاي بسياري , که به خارج از مجموعه داخلي يا داخل مجموعه خارجي بدون ارتباط با اجزاهاي ديگر هدايت مي کند.
خواص گراف وب
چندين مجموعه هاي کوچکتر وجود دارد که نمي تواند از هر نقطه اي در اين ساختار رسيده شود.
کروکي يک نمودار از اين ساختار , که گاهي اوقات فريبنده است به خاطر اينکه نقش برجسته بخش داخلي , خارجي , و SCC فقط بر پايه اندازه پايه گذاري مي شود
ساختار هاي ديگري با يک شکل مشابه وجود دارد , اما قدري کوچکتر از اندازه هستند ( يعني , لوله ها ممکن است شامل اجزاء شديداَ متصل ديگر شوند که با SCC فقط در اندازه فرق دارند)
نتيجه اصلي اين است که چندين اجزاء گسسته وجود دارد. در حقيقت , يک منطقه ميان دو صفحه به طور تصادفي انتخاب شده وجود داشته باشد فقط حدود 0.24 است