خوارزم مقترح للتنقيب في الويب لتمييز أنماط المستخدمين والتنبؤ بمتطلباتهم

نوع المستند : مقالات علمیة محکمة

المؤلفون

1 مدرس مساعد الحاسب الألى کلية التربية النوعية - جامعة المنصورة

2 أستاذ الحاسب الآلي والنظم المعلوماتية المتفرغ کلية التربية النوعية - جامعة المنصورة

3 أستاذ الحاسب الآلي والنظم المعلوماتية کلية التربية النوعية - جامعة المنصورة

4 مدرس الحاسب الآلي کلية التربية النوعية - جامعة المنصورة

الموضوعات الرئيسية


مقدمة :

تعتبر شبکة المعلومات العالمية World Wide Web أکبر مستودعات الوثائق المعروفة، ومنذ بدايتها تتزايد کمية البيانات بمعدل کبير, ومع هذا النمو الهائل تزداد صعوبة وصول المستخدم للمعلومات التي يحتاج إليها، کما تزداد صعوبة تصنيف وفهرسة تلک المعلومات الأمر الذي يجعل استعراض کل النتائج مضيعة لوقت المستخدم (Anthony. S, 2005, 20).وترجع ضخامة حجم المعلومات الموجودة على الشبکة إلى الحرية في تأليف ونشر المحتوى وعدم وجود سلطة تتحکم أو تسيطر على نشر المعلومات على الانترنت مما أدى إلى زيادة حجم المعلومات وتکرارها، وبسبب هذا فإنه على خلاف قواعد البيانات العلائقية فإن المعلومات على الويب ضعيفة البنية (Derar. H, 2009, 35).

وتلعب نظم تکامل المعلومات Information Integration Systems مثل محرکات البحث دوراَ هاماً في جعل هذا الکم الهائل من المعلومات قوي البنية وسهل الوصول إليه بسهولة وبشکل أکثر فائدة ورغم نجاح تلک الأنظمة في معالجة العديد من التحديات ألا أنها ما زالت تواجه العديد من القيود، خاصة عند استخراج واستکمال المحتوى من قواعد بيانات الويب التي تکمن وراء واجهات البحث، ولمعالجة تلک القضايا لابد من توجيه أنظار الباحثين إلي الاهتمام بتقنيات التنقيب في الويب  Web Mining کمجال هام للبحث والدراسة (Zhongming. M, 2007, 23).

ويعد التنقيب في الويب Web Mining أحد تطبيقات تعلم الآلة Machine Learning على بيانات مبنية على الويب من أجل التعلم واستخراج المعرفة. التنقيب في الويب يمکن تصنيفه إلي ثلاث تصنيفات مميزة وهي التنقيب في استخدام الويب Web Usage Mining، التنقيب في بنية الويب Web Structure Mining، التنقيب في محتوى الويب Web Content Mining (Fatih. G, 2007, 18).

ويتعامل نظام التنقيب في الويب مع البيانات المدخلة من خلال ثلاث مراحل مختلفة حتى تصل إلي النتيجة النهائية، وتتمثل تلک المراحل في مرحلة ما قبل المعالجة Pre-processing، مرحلة التنقيب في البيانات Data Mining، مرحلة بعد المعالجة Post Processing.عندما تکون البيانات مدخلة في نظام التنقيب في البيانات فإن مرحلة ما قبل المعالجة تصبح ضرورية لنقل البيانات الخام إلي صيغة مقبولة وتلک المرحلة ربما تشمل تقليل الحقول غير المرتبطة وتنقية البيانات من المعلومات المشوهة Noisy Information وهذه الخطوة ضرورية جدا حيث أن صفحات الويب تحتوي على نسبة عالية من المعلومات المشوهة (John.L, Michel . V, 2007, 54-55).

مشکلة البحث:

يتميز هذا العصر بالتغيرات السريعة الناجمة عن التقدم العلمي والتکنولوجي وتقنية المعلومات،لذا تهتم المؤسسات التعليمية دائما بالحديث في مجال تکنولوجيا المعلومات والإنترنت حيث أنها تعتمد بصورة کبيرة حاليا على شبکة الإنترنت وخدماتها في التعامل مع المعلومات ونقلها من جهة إلى أخرى, خاصة بعد التطور الهائل في مجال التعليم الإلکتروني والإدارة الإلکترونية.

فعلى سبيل المثال وليس الحصر فجامعة المنصورة تعتمد في عملها على الإدارة الإلکترونية والتعليم الإلکتروني وهناک العديد من النظم الإلکترونية التي تستخدمها مثل (نظام ابن الهيثم لإدارة الدراسات العليا, نظام المستقبل لإدارة المکتبات, نظام الحسابات الخاصة, نظام الموازنة العامة لجامعة المنصورة, نظام حفظ المستندات لجامعة المنصورة, نظام الأمين لإدارة المخازن والعهد, نظام التصحيح الإلکتروني), کذلک قامت بتحويل العديد من المقررات إلى مقررات تعليم إلکتروني.

وتعتمد أنظمة الإدارة الالکترونية وبرامج التعليم الإلکتروني في المقام الأول على استخدام شبکة الانترنت وتبادل کم هائل من المعلومات بينها, عن طريق موقعها الذي يقدم خدماته لجميع مستخدمي الموقع سواء من داخل الحرم الجامعي أو من خارجه فإنه تعتريها ساعات ذروة نظرا لکثرة مستخدمي الموقع وکذلک ضخامة حجم البيانات المرتبطة بالموقع مما قد يتسبب في مجموعة من المشکلات مثل تعذر الدخول إلى الموقع أو الدخول ولکن لا يتم تنفيذ بعض متطلبات المستخدم کتحميل البرامج والأنظمة للمستخدمين. الأمر الذي يتطلب مساعدة المستخدمين لتخفيف العبء عن الموقع عن طريق استخدام تقنيات جديدة مثل تقنيات التنقيب في الويب للمساعدة في حل تلک المشاکل.ومن ثم فالمؤسسات التعليمية تفتقد لنظم التنقيب في الويب لتمييز أنماط المستخدمين والتنبؤ بمتطلباتهم لتحسين أداء المواقع الالکترونية، وبالتالي يمکن صياغة مشکلة البحث في التساؤل الرئيسي التالي:

کيف يمکن بناء نظام تنقيب في الويب لتمييز أنماط المستخدمين والتنبؤ بمتطلباتهم لتحسين أداء المواقع الالکترونية؟

ويتفرع من هذا السؤال الرئيسي التساؤلات الفرعية التالية:

1.  ما الخوارزميات المستخدمة للتنقيب في الويب؟

2.  کيف يمکن تمييز أنماط مستخدمي المواقع الالکترونية إلي فئات متشابهة؟

3.  کيف يمکن التنبؤ بمتطلبات مستخدمي المواقع الالکترونية؟

4.  کيف يمکن تحسين أداء المواقع الالکترونية باستخدام تقنيات التنقيب في الويب؟

أهداف البحث:

1.  التعرف على أهم الاتجاهات الحديثة في مجال التنقيب في الويب.

2.  تحديد أسس تصميم وبناء نظم التنقيب في الويب.

3.  التعرف على نوعية البيانات التي يمکن استنباط معرفة منها وتصنيفها طبقاً لاهتمامات مستخدمي موقع جامعة المنصورة.

4.  بناء خوارزم مقترح للتنقيب في الويب.

5.  توفير نظام تنقيب في الويب لتمييز أنماط المستخدمين والتنبؤ بمتطلباتهم لتحسين أداء المواقع الالکترونية.

6.  التعرف على مدى الاستفادة من استخدام النظام المقترح في تحسين أداء المواقع الالکترونية.

أهمية البحث:

1.   توجيه أنظار الباحثين إلي الاهتمام بتقنيات التنقيب في الويب  Web Mining کمجال هام للبحث والدراسة.

2. تقديم تقنية جديدة مقترحه تعمل على تحسين عملية التنقيب في مواقع الويب لتقليل التحميل الزائد على المواقع الالکترونية لتوفير وقت وجهد المستخدم.

3. توفير خوارزم تنقيب في الويب لتمييز أنماط المستخدمين والتنبؤ بمتطلباتهم لتحسين أداء المواقع الالکترونية يمکن استخدامه في تطوير نظم مشابهة.

منهج البحث:

يتبع البحث منهجين هما:

1. المنهج الوصفي: ويرتبط مفهوم المنهج الوصفي بتوضيح واقع الأحداث ولا يتوقف عند وصف الواقع على تقرير حقائقه الحاضرة کما هي، بل يتناولها بالتحليل والتفسير لغرض الاستنتاج لتصحيح الواقع أو تحديثه أو استکماله )محمد زياد حمدان، 1999، 66(. وقد استخدم المنهج الوصفي لمعالجة الإطار النظري الخاص بالبحث من خلال وصف وتفسير وتحليل المفاهيم الخاصة بالتنقيب في الويب وکذلک تمييز الأنماط من اجل تحسين أداء المواقع.

2. المنهج التجريبي: لتصميم وإنتاج نظام تنقيب في الويب لتمييز أنماط المستخدمين والتنبؤ بمتطلباتهم، وقياس فعاليته في تحسين أداء المواقع الالکترونية.

أدوات البحث:

1.  خوارزم مقترح للعنقدة (Clustering).

2.  خوارزم مقترح للتصنيف(Classification) واستخلاص القواعد Rules Extraction.

مصطلحات البحث:

1- التنقيب في الويب Web Mining:

يعرفه (Anthony Scime,2005,20) على أنه الانتقال بشبکة المعلومات العالمية تجاه بنية أکثر فائدة حيث يستطيع المستخدمين إيجاد المعلومات التي يحتاجون إليها بسرعة وسهولة. وهو يتضمن استکشاف وتحليل البيانات، الوثائق والوسائط المتعددة من شبکة المعلومات العالمية.وتستخدم تلک التقنية محتويات الوثائق، بنية الروابط الفائقة واستخدام الإحصائيات لمساعدة المستخدمين في تلبية احتياجاتهم من المعلومات.

ويعرف البحث الحالي التنقيب في الويب بأنة "عملية اکتشاف وتحليل واستخراج المعلومات المفيدة من شبکة المعلومات العالمية من أجل تقديم خدمة أکثر سرعة وکفاءة".

2- تمييز الأنماط Pattern Recognition

يعرفه (Richard . D, and et al., 2001, 35) بأنة عملية  تصنيف البيانات إلى مجموعة من الفئات إما على أساس معرفة مسبقة أو على المعلومات الإحصائية المستخرجة من الأنماط، البيانات المصنفة عادة  ما تکون مجموعات من القياسات أو الملاحظات.

3- ملف دخول المستخدم Log file

يعرفه (Vel’asquez, J. D., Palade V.,2008) بأنه ملف يستخدم لتسجيل کافة بيانات المستخدم خلال إبحاره داخل الموقع وتستخدم تلک البيانات لاستخراج معرفة وأنماط تساعد على تلبية متطلبات المستخدمين.

4- العنقدة (التجميع Clustering)

 يعرفه ( Hannah, H., Thangavel, K., 2009, 3)بأنها تقنية لجمع مجموعة العناصر التي تمتلک صفات متشابه في مجموعة واحدة. والعنقود هو مجموعة من العناصر المتشابهة فيما بينها، وغير مشابهة للعناصر المنتمية إلى عناقيد أخرى.

5- التصنيف

يعرفه (Kamber,M . and Han, J.(2006)) عملية ربط عنصر بيانات بأحد الفئات المعرفة مسبقاوقد تشير إلى العملية التي يتم بها التعرف على الأفکار والأشياء متباينة ومفهومة.خوارزميات التصنيف الأکثر شيوعا هي شجرة القرار والشبکات العصبية. وهناک أيضا أساليب أخرى لاستخراج أنماط الاستخدام من سجلات ويب.

دراسات سابقة:

1- دراسة (David. S, Antonio. M, 2005) بعنوان " تقنيات التنقيب في الويب من أجل الاستکشاف الأوتوماتيکي للمعرفة الطبية" استهدفت هذه الدراسة توضيح أهمية شبکة المعلومات العالمية کأداة حيوية للباحثين ومهندسي المعلومات والشرکات الطبية والممارسين من أجل استخراج المعرفة.فتقترح هذه الدراسة طريقة أتوماتيکيه ومستقلة من اجل استخراج التصنيفات من المصطلحات على الويب وتقدم وثائق الويب المسترجعة بترتيب ذو مغزى. کما قدمت هذه الدراسة طريقة جديدة لاکتشاف المرادفات والlexicalization والنتائج التي تم التوصل إليها کانت مفيدة جدا لتسهيل عملية الوصول إلي مصادر الويب في أي مجال طبي أو عروض Ontological.

2- دراسة (Srivastava.J , et al, 2005) بعنوان " التنقيب في الويب – المفاهيم والتطبيقات واتجاهات البحث.استهدفت الدراسة توضيح أهمية استخراج معلومات ذات قيمة من الويب وأن تقنيات التنقيب في البيانات لاستخراج المعرفة من المحتوى ، والبنية والاستخدام هو تجميع لمجموعة من التکنولوجيات لتحقيق تلک الإمکانية. وأن الاهتمام بمجال التنقيب في الويب قد نمى بسرعة في مجالات البحث والمجالات الاجتماعية الأخرى. فتقدم هذه الدراسة لمحة مختصرة عن الانجازات في هذا المجال سواء من حيث التقنيات والتطبيقات ويحدد التوجهات الرئيسية للبحث في بحوث المستقبل.وتوصلت هذه الدراسة إلي أهمية تحليل البيانات واستخراج جميع أنواع المعرفة المفيدة منه. وتوصلت الدراسة أيضاً إلى وصف مساهمات العملية الأساسية للحاسب التي ساهمت في نمو هذا المجال وتطوره.

3- دراسة (Lan.Y, Bing. L, 2006)بعنوان " تنقية صفحة الويب للتنقيب في الويب خلال وزن الحقول".

استهدفت هذه الدراسة إيضاح أنة على خلاف البيانات التقليدية أو النصية فإن صفحات الويب تحتوى على کمية کبيرة من المعلومات والتي لا تعتبر جزء من المحتويات الرئيسية لتلک الصفحات مثل أشرطة الإبحار، الإعلانات ، ومعلومات حقوق النشر، هذه المعلومات غير زى علاقة وتسمى ضوضاء صفحة الويب ًWeb page noise مثل العنقده Clustering والتصنيف Classification. تقترح هذه الدراسة تقية جديدة لوزن الحقول Feature Weight للتعامل مع ضوضاء صفحة الويب من أجل تحسين التنقيب في الويب.هذه الطريقة تنشئ ما يسمى شجرة الترکيب المضغوطة Compressed Structure Tree وتقوم باستخدام المعلومات المبنية على  القياس لتقييم أهمية کل عقدة node في شجرة الترکيب المضغوطة. وبناء على الشجرة وأهمية قيم عقدها فإن تلک التقنية تخصص وزن لکل حقل في کل محتوى. الأوزان الناتجة تستخدم في التنقيب في الويب ويتم تقييم التقنية المقترحة عن طريق مهمتين للتنقيب في الويب هما:عنقدة صفحة الويب Web Page Clustering - تصنيف صفحة الويب Web Page Classification. وتوصلت النتائج إلى أن طريقة القياس المستخدمة في الدراسة استطاعت أن تحسن نتائج التنقيب بشکل ملحوظ.

4- دراسة ((David. J, et al 2007بعنوان ( التنقيب المرئي للويب )تتضمن تحليل بيانات استعمال موقع الويب تحديين هامين:أولاً حجم البيانات الناشئ عن نمو الويب، وثانياً، التعقيد الهيکلي لمواقع الويب استهدفت الدراسة تطبّيق تقنيات التنقيب في البيانات والمعلومات المرئية إلى مجال الويب لکي يستفيد من قوة کل من فهم الرؤية البشرية واستعمال الحاسبات  نعين هذا التنقيب في الويب البصري ردا على التحديين حيث نطبق تقنيات التنقيب في البيانات إلى مجموعات بيانات الويب الضخمة وتستهدف الدراسة تلخيص التقنيات المستخدمة، وتستخدم أساليب تصور المعلومات على النتائج. الهدف هو ربط نتائج التنقيب في تسجيلات استخدام الويب وبنية الويب المستخرجة عن طريق ترکيب النتائج بشکل بصري. وتقترح الدراسة مجموعة من تخطيطات المعلومات المرئية الجديدة وتحليل أدواتهم والتحکم في بنية نموذج التطبيق.

5- دراسة ((Cheng. Y, et al, 2009 بعنوان " تقنيات التنقيب في الويب لتسويق الکتب على الانترنت"

استهدفت الدراسة توضيح للعملاء المحتملين للکتب على الانترنت عن طريق تنقيب محتوى الويب. فهذه الدراسة أولا تقوم بعمل قائمة من العلماء الذين يرتبط مجال بحثهم في تکنولوجيا المعلومات، ثم بعد ذلک يتم استخدام محرک البحث لحساب عدد صفحات الويب المرتبطة بخبرة العلماء. هذه البيانات يتم معالجتها قبلياً بواسطة ثلاث خطوات رئيسية قبل استخدامها وهي:

1.  ترشيح أو فرز البيانات الغير طبيعية.

2.  تطبيع البيانات Normalizing Data

3.  توليد البيانات الثنائية.

تم استخدام تحليل الارتباط والتحليل العنقودي الهرمي وذلک لتوليد عنقدة العلماء وخبرتهم من اجل اختبار دقة استخدام التنقيب في الويب للتنبؤ بالعلماء المهتمين بقوائم الکتب.وتوصلت النتائج إلى أن معدل الدقة لقوائم الکتب الموصي بها هام من الناحية الإحصائية.

6- دراسة (Tuncay. S, Necmi. D, Zafer. C, 2010) بعنوان " التنقيب في الويب وبيئات التعلم الافتراضية" ، استهدفت هذه الدراسة توضيح أن البيئات التعليمية تنقسم إلى شکلين أساسين هما(بيئات التعلم التقليدية، بيئات التعلم الافتراضية. ويوجد مشاکل في تلک البيئات تشمل مشکلة التقييم وتحليل السلوک. ففي التعليم التقليدي تحليل السلوک يتم بسهولة من خلال أساليب الملاحظة بينما في التعليم الافتراضي فإن تحليل اتجاهات الطلاب وسلوکهم يعتبر مشکلة هامة. تطبيقات التنقيب في الويب تستخدم في إعطاء معلومات ذات معنى من خلال سلوکيات غير ذات مغزى. التجول داخل بيئات الويب هي الوسيلة للتغلب على تلک المشاکل. وأثبتت هذه الدراسة أن تطبيقات التنقيب في الويب في بيئات التعلم الافتراضية شکلت توافق مع طريقة البحث الوصفية ونتيجة لذلک تم إدخال التنقيب في الويب في بيئات التعلم.

الإطار النظري:

تصنيف التنقيب في الويب

ويمکن تقسيم التنقيب في الويب إلى ثلاث فئات متميزة، وفقا لأنواع البيانات التي يمکن التنقيب فيها. ويمکن إيضاح لمحة موجزة عن الفئات الثلاث في الشکل التالي ( )Rathod, D. (2012):).

 

 

شکل (1) تصنيف التنقيب في الويب

التنقيب في محتوى الويب (Web Content Mining (WCM)

هو عملية استخراج معلومات مفيدة من محتويات مستندات ويب، ويمکن أن تتألف من النصوص والصور والصوت والفيديو، أو سجلات منظمة مثل القوائم والجداول. ويمکن معاملة التنقيب في محتوى الويب  کامتداد لمحرک البحث الأساسي (Search Engine). معظم محرکات البحث تعتمد على الکلمة المفتاحية. في حين أن التنقيب في محتوى الويب يمتد إلى تکنولوجيا استرجاع المعلومات التقليدية ((IR) Information Retrievalمن خلال بناء المفاهيم الهرمية، واستخراج ملفات تعريف المستخدمين وتحليل الروابط بين صفحات الويبTaherizadeh, S., Moghadam N. 2009)).

التنقيب في بنية الويب Web Structure Mining (WSM)))

هو العملية التي من خلالها نکتشف نموذج لبنية روابط صفحات الويب. وتوليد المعلومات مثل التشابه والعلاقات فيما بينها من خلالالاستفادة من الارتباط التشعبي. فيتم فهرسة الروابط ، وتوليد المعلومات مثل التشابهSimilarity   والعلاقات فيما بينها. يهدف النقيب في الويب إلى ملخص هيکلي لموقع وصفحات الويب (Jain,R. Purohit, G. N.,2011, 0975 – 8887).

التنقيب في استخدام الويب (Web Usage Mining (WUM

التنقيب في استخدام شبکة الويب هو عملية تطبيق تقنيات التنقيب في البيانات لاکتشاف أنماط السلوک على أساس البيانات المبنية على شبکة الإنترنت، لمختلف التطبيقات((Kohavi. R and Parekh. R, 2003.

 

مراحل التنقيب في استخدام الويب

يوفر التنقيب في استخدام الويب مدخلاً لجمع وتجهيز البيانات على شبکة الإنترنت، ويبني نموذج يمثل سلوک المستخدمين ومتطلباتهم. ويتکون التنقيب في استخدام الويب من المراحل الأساسية التالية (Gutschmidt, A., et al, 2008):

1- جمع البيانات Data collection.

2- معالجة البيانات Data preprocessing.

3- اکتشاف الأنماط Pattern discovery.

4- تحليل الأنماط Pattern analysis.

1-جمع البيانات Data collection.

جمع البيانات مهمة ضرورية في أي تطبيق لاستخراج البيانات و خلق مجموعة بيانات ذات هدف مناسب. قد تشمل عملية ما قبل معالجة البيانات الأصلية، ودمج البيانات من مصادر متعددة، وتحويل البيانات إلي شکل مناسب للاستخدام في عمليات تنقيب بيانات محددة. يتم جمع البيانات من خوادم الويب Web Servers، من العملاء المتصلين بالخادم، أو من مصادر وسيطة مثل خوادم بروکسي  proxy servers(Dunham,H., ,2003)

2- معالجة البيانات Data preprocessing

تهدف معالجة سجل دخول الويب (Log File) إلي إعادة تهيئة تسجيلات الدخول الأصلية لتحديد جميع جلسات (Sessions) الوصول إلى شبکة الإنترنت. خادم الويب عادة يسجل أنشطة دخول کافة المستخدمين للموقع وسجلات خادم الويب Web server logs. هناک العديد من أنواع سجلات الويب ويوجد العديد من المهام التي يتعين القيام بها على سجلات خادم الويب قبل تنفيذ خوارزميات التنقيب على الويب. وتشمل تلک المهام، تنقية البيانات data cleaning، تعريف المستخدمين، تمييز المستخدمين user differentiations، تحديد الجلسات session identification(Ling Zheng, et al, 2010, . VI-19-VI-21.   ).سجلات الدخول الأصلية  يتم تنقيتها، إعادة تهيئتها، ومن ثم تجميعها في مجموعات ذات معنى قبل أن يتم استخدامها من قبل التنقيب في استخدام الويب .(SubMasthan, T., et al.. 2012, 307-312)

2.1 مکونات ملف الدخول Log File:

يتکون ملف دخول المستخدم من مجموعه من العناصر مثل رقم العنوان Ip adress : وهو رقم الجهاز الذي يتم الدخول على الموقع من خلاله، اسم العميل Client nameوهو اسم المستخدم في حاله وجود حماية بکلمة سر، الوقت والتاريخ Time stampوهو وقت وتاريخ الزيارة کما يتم رؤيتها من خادم الويب، access requestويشمل اسم الرابط الذي تم طلبه والبرتوکول المستخدم، رابط المرجع Refferr Urlويشير إلى الرابط المصدر الذي تم الدخول من خلاله ، وکيل المستخدم User Agentويشمل الوکيل أو المستعرض المستخدم في التصفح وليکن الانترنت اکسبلور Internet explorerأو موزيلا Mozilla. (Vel’asquez, J. D., Palade (V.  2008

3- اکتشاف الأنماط Pattern discovery

في تلک المرحلة يتم اکتشاف الأنماط التي تکون مطلوبة من أجل تخصيص الويب والتي تستجيب لسلوک واهتمامات المستخدمين، يتم اکتشاف المعرفة عن طريق تطبيق العديد من التقنيات مثل العنقده (التجميع) Clustering، التصنيف Classification، قواعد الارتباط Association Rulesواکتشاف النمط المتسلسل  (Kiruthika, M.(2011):)sequential pattern discovery.

3.1 العنقدة أو التجميع Clustering  :

يمکن أن تتم العنقدة في مجال التنقيب في استخدام الويب على المستخدمين user clusters،عنقدة الصفحة page clustersوعنقدة الجلسات sessions clustersمن ملف الدخول.عنقدة المستخدمين  تهدف إلى إنشاء مجموعات من المستخدمين يمتلکون اهتمامات مشترکة بناء على سلوکهم على الموقع. وعلى الجانب الآخر عنقدة الصفحات تکتشف مجموعات من الصفحات تمتلک محتويات متشابهة من أجل تحسين محرکات البحث search enginesفي الويب. بالإضافة إلى ذلک يمکن أن تطبق العنقده على الجلسات sessionsحيث کل منها يمکن أن يعرض موضوع واحد هام خلال الموقع (Suresh, K.,et al.,(2011). 

3.2 التصنيف Classification

يکون الاهتمام في مجال الويب بتطوير الملف الشخصي Profileللمستخدمين المنتمين لفئة معينه.وهذا يتطلب تحديد واستخراج السمات featuresالتي تصف خصائص الفئة المعطاة بأفضل ما يکون.يمکن القيام بالتصنيف عن طريق باستخدام العديد من التقنيات مثل شجرة القرارات decision tree  ، K-nearest neighbor classifier، Support Vector MachineالخUsama Fayyad, et al,(2009)  ).

4-تحليل الأنماط Pattern analysis

تحليل الأنماط هو أخر مرحلة من مراحل التنقيب في الويب والهدف وراء تلک المرحلة هو فرز القواعدrulesأو الأنماط patternsالغير هامه من مجموعة الأنماط التي تم الحصول عليها في مرحلة اکتشاف الأنماط.

الإطار التطبيقي:

أولا تصميم وبناء الخوارزم المقترح:

1-ماهية الخوارزم المقترح:

يعتمد النظام المقترح على خوارزمين هما:

  • · خوارزم مقترح للعنقدة clustering algorithm: وذلک لتجزئة مصفوفة جلسات العمل الـsessions  التي تم إنشاؤها في مرحلة المعالجة وتحويلها إلى مکونات مترابطة (عناقيد clusters).ولتحديد المکونات المترابطة وتخصيصها لعنقود (cluster).
  • ·  خوارزم مقترح للتصنيفClassification : وذلک لتصنيف الصفحات إلى أحد المجموعات Clusters التي تم تحديدها مسبقا.

2- مراحل الخوارزم المقترح:

يمر الخوارزم المقترح بمجموعة من الخطوات، يتم توضيحها کما يلي:

1. مرحلة جمع البيانات Data Collection : في هذه المرحلة، بيانات المستخدم تم تسجيلها في ملف الدخول log file يستخدم في متابعة سلوک المستخدم خلال الإبحار في الموقعوبيانات جلسات العمل Sessions ويتکون من الجدول التالي:

  ‌أ-   جدول مصفوفة الصفحات Page_array table : يتتبع سلوک المستخدم خلال الإبحار في تسجيلات دخول الموقع ( رقم المستخدم user_id - رقم الجلسة session_id  - الروابط المطلوبة Urls- والوقت المستغرق timestamp).

جدول (1) جدول دخول الصفحات

 

2. معالجة البيانات Data Preprocessing: تشمل هذه المرحلة تنقية البياناتData cleaning، تحديد الجلسة session identification بناء مصفوفة علاقة التشابه بين الجلسات Sessions Similarity.

  ‌أ-   البيانات Data Cleaning، تحديد الجلسة session identification: وتتم عملية تنقية ملف الدخول  log file  حيث يتم تحديد مصفوفة صفحات الجلسات sessions فخلال إبحار المستخدم يقوم النظام بتسجيل الطلبات requests ويبنى مصفوفة من الصفحات والجلسة session (sessions_pages). هذه المصفوفة تتکون من کل الصفحات التي تم الوصول إليها بواسطة المستخدم خلال الجلسة session ويتم تخزين تلک المصفوفة في جدول يسمى page_array فيتم تحويل البيانات في ملف الدخول إلى شکل ثنائي(1،0)  حيث أن الموقع يتکون من 10 صفحات (p1-p10) والتعامل مع sessions من (s1-s10) حيث يتم إعطاء الصفحة التي تم الدخول عليها القيمة (1) والصفحة التي لم يتم الدخول عليها القيمة (0) کما هو موضح بالجدول (2) والعمود الأخير(Count) يدل على عدد الصفحات التي تم الدخول عليها.

جدول (2) مصفوفة الصفحات وجلسات العمل

Count

P10

P9

P8

P7

P6

P5

P4

P3

P2

P1

 

7

1

0

1

1

0

0

1

1

1

1

S1

7

1

0

0

1

1

1

1

1

0

1

S2

6

0

1

0

1

1

0

1

1

1

0

S3

7

1

0

1

0

1

1

1

1

0

1

S4

5

1

0

1

1

0

1

0

0

0

1

S5

4

0

1

0

0

1

0

0

1

1

0

S6

4

0

0

0

0

1

1

0

1

1

0

S7

4

0

0

1

0

0

1

0

1

1

0

S8

5

1

0

1

1

0

1

0

1

0

0

S9

4

1

0

0

1

0

1

0

1

0

0

S10

  ‌ب-   بناء مصفوفة علاقة التشابه بين الجلسات Sessions Similarity: بعد تحديد مصفوفة الـ session_page، تستخدم لبناء مصفوفة n*nM = حيث n عدد الـ sessions في الموقع. وکل similarity(s1,s2) تقيس التشابه بين الـsessions وبعضها عن طريق المعادلة التالية:

 

 

Where:

              m=1,….,n1

               i=1,….,n2

               j=j+i   and   j>0

 

Where:

              Si,Sj è Sessions

              Pm  è Pages

ليکون الناتج کما هو موضح بالجدول التالي:

جدول (3) مصفوفة علاقة التشابه بين الجلسات

S10

S9

S8

S7

S6

S5

S4

S3

S2

S1

 

0.429

0.57

0.43

0.286

0.29

0.571

0.71

0.57

0.71

1

S1

0.571

0.57

0.29

0.429

0.29

0.571

0.86

0.57

1

0.71

S2

0.333

0.33

0.33

0.5

0.67

0.167

0.43

1

0.57

0.57

S3

0.429

0.57

0.43

0.429

0.29

0.571

1

0.43

0.86

0.71

S4

0.6

0.8

0.4

0.2

0

1

0.57

0.17

0.57

0.57

S5

0.25

0.2

0.5

0.75

1

0

0.29

0.67

0.29

0.29

S6

0.5

0.4

0.75

1

0.75

0.2

0.43

0.5

0.43

0.29

S7

0.5

0.6

1

0.75

0.5

0.4

0.43

0.33

0.29

0.43

S8

0.8

1

0.6

0.4

0.2

0.8

0.57

0.33

0.57

0.57

S9

1

0.8

0.5

0.5

0.25

0.6

0.43

0.33

0.57

0.43

S10

3. اکتشاف الأنماط Pattern Discovery : لاکتشاف الأنماط يتم استخدام خوارزم العنقدة clustering algorithm وذلک لتجزئة مصفوفة الـجلساتsessions  التي تم إنشاؤها في مرحلة المعالجة وتحويلها إلى مکونات مترابطة (عناقيد clusters).ولتحديد المکونات المترابطة وتخصيصها لعنقود(cluster) باستخدام threshold ولذلک لتنقية الروابط الضعيفة بين الـsessions  حيث تم تنقية وفرز الروابط بين الـ sessions عند 0.6= threshold کما هو بالجدول التالي:

 

جدول (4) الجلسات ذات الارتباط المرتفع

S10

S9

S8

S7

S6

S5

S4

S3

S2

S1

S10

0

0

0

0

0

0

0.71

0

0.71

1

0

0

0

0

0

0

0

0.86

0

1

0.71

0

0

0

0

0

0.67

0

0

1

0

0

0

0

0

0

0

0

0

1

0

0.86

0.71

0

0

0.8

0

0

0

1

0

0

0

0

0

0

0

0

0

1

0

0

0.67

0

0

0

0

0

0.75

1

0.75

0

0

0

0

0

0

0

0

1

0.75

0

0

0

0

0

0

0

0.8

1

0

0

0

0.8

0

0

0

0

0.8

1

0.8

0

0

0

0

0

0

0

0

1

ومن خلال الجدول السابق يمکن استخلاص ثلاث مجموعات clusters حيث تشمل المجموعة الأولى (s1,s2,s4) ، المجموعة الثانية (s3,s6,s7,s8) ، المجموعة الثالثة (s5, s9,s10). کما هو موضح بالجدول التالي:

جدول (5) المجموعات التي تم اکتشافها

 

S4

S2

S1

Cluster1

S8

S7

S6

S3

Cluster2

 

S10

S9

S5

Cluster3

4. استخراج القواعد Rules Extraction وتستخدم عن طريق استخدام خوارزم لتصنيف الصفحات بناء على المجموعات Clusters التي تم الحصول عليها. فمن خلال إضافة کل مجموعة  Cluster  کهدف للجلسة session الذي ينتمي إليها کما هو مبين بالجدول التالي فعلى سبيل المثال ينتمي s1 إلى Cluster1 و s3 إلى Cluster2 مع تکرار الخطوات السابقة.

 

جدول (6) الجلسات بعد إضافة المجموعات کهدف لاستخلاص القواعد

Cluster3

Cluster2

Cluster1

P10

P9

P8

P7

P6

P5

P4

P3

P2

P1

 

0

0

1

1

0

1

1

0

0

1

1

1

1

S1

0

0

1

1

0

0

1

1

1

1

1

0

1

S2

0

1

0

0

1

0

1

1

0

1

1

1

0

S3

0

0

1

1

0

1

0

1

1

1

1

0

1

S4

1

0

0

1

0

1

1

0

1

0

0

0

1

S5

0

1

0

0

1

0

0

1

0

0

1

1

0

S6

0

1

0

0

0

0

0

1

1

0

1

1

0

S7

0

1

0

0

0

1

0

0

1

0

0

1

0

S8

1

0

0

1

0

1

1

0

1

0

1

0

0

S9

1

0

0

1

0

0

0

0

1

0

1

0

0

S10

ومن خلال تطبيق خوارزم التصنيف شکل (2) يتم استخراج بعض القواعد التي تساعد المستخدم الجديد في  تلبية متطلباته بتخصيص صفحات مرتبطة بالصفحات إلى يقوم بتصفحها وذلک لتوفير الوقت وتقليل عمليات البحث حيث يتم إضافة المجموعات clusters التي تم اکتشافها في المرحلة السابقة وهى (3) مجموعات کهدف إلى الجدول السابق بحيث تتم قياس احتمالية وجود الصفحات کل على حدة ومجتمعة في مجموعة معينة من المجموعات (ارتباط الصفحة بالمجموعة)، فمثلا نرى أن الصفحة P1 تم الدخول عليها (4) مرات منهم ثلاث مرات تنتمي إلى المجموعة الأولى cluster1 ومره واحده تنتمي إلى المجموعة الثالثة  cluster3  وبالتالي يکون نسبة ظهورها في المجموعة الأولى 75% ونسبة ظهورها في المجموعة الثالثة 25% وبالتالي نحتاج إلى إضافة صفحة أخرى إلى الصفحة P1 لمعرفة احتمال ظهور الصفحتين في احد المجموعات فنقوم بتجربة P1,P2 لنجدها تظهر معا مره واحده في المجموعة الأولى cluster1  وبالتالي يکون احتمالية ظهورهما معا بنسبة 100% وبالتالي يمکن استخلاص القاعدة التالية:

If p1=1 and p2=1 then cluster1

ولقياس ارتباط P1, P3 معا نجد أنهم ظهرا (3) مرات في المجموعة الأولى

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

شکل (2) خوارزم التصنيف

 

نتائج البحث

يهدفتخصيصالويبإلىإمدادالمستخدمبالبياناتالتييحتاجهابدونأنيطلبهابشکلمباشر.فيهذاالسياقاتضحأنتقنيات التنقيبفيبياناتالويبمنالتقنياتالمفيدةفيهذاالمجاللاستکشافالمعلوماتالمخبأةفيالبياناتالمرتبطةبالويبوتحديداتقنية التنقيباستخدام الويبوالتيتستکشفالمعلوماتمنبياناتدخولالمستخدمللموقعباستخدامتقنياتالتنقيبفي البيانات. وتستخدمالمعرفةالمستخلصةمنالبياناتالتاريخيةللمستخدمينفيتطويرنظامالتخصيصأوالنظامالمقترح. ويقوم النظام المقترح باستخلاص البيانات من ملف دخول المستخدم log file ليتم استخدامها في اکتشاف أنماط المستخدمين عن طريق تطبيق تقنيات العنقدة أو التجميع (Clustering) حيث تم تقسيم جلسات العمل Sessionsعلى ثلاث مجموعات مترابطة وفقا لعلاقة التشابه فيما بينها حيث شملت المجموعة الأولى (S1,S2,S4) والمجموعة الثانية (S3,S6, S7,S8) والمجموعة الثالثة (S5, S9 ,S10). وکذلک استخراج القواعد (rules) عن طريق استخدام تقنيات التصنيف classification وذلک من اجل إعطاء المستخدم مجموعه من التوصيات recommendations حيث تم حساب الارتباط بين الصفحات التي يقوم المستخدم الجديد بالدخول عليها والمجموعات الموجودة بالفعل من خلال عمليه العنقدة التي تساعده في الحصول على الصفحات الأکثر أهميه والأکثر تشابها توفيرا لوقت وجهد المستخدم وتخفيف الحمل الزائد على الموقع.

المراجع:
أولا المراجع العربية
1.  محمدزيادحمدان(١٩99)البحثالعلميکنظام،سوريا،دارالتربيةالحديثة،ص٦.
ثانيا المراجع الأجنبية:
1.  Anthony. S (2005): Web Mining Application and Techniques, United State of American, Idea Group Inc, ISBN 1-59140-9 (e-book), P.20,Available Online at http://books.google.com.eg/books,  , Accessed On 11 May 2010
2.  Derar.H (2009): Effectiveness of Template Detection on Noise Reduction and Websites Summarization, M.S, Department of  Computer Science, University of Calgary, Alberta.
3.  Zhongming. M (2007): Web Mining for Knowledge Discovery, Ph.d, Department of Bussiness Administration, University of Utah.
4.  Fatih. G (2007): Effective Use of Term Relationships in Web Content Mining , Ph.d, Arizona State University, P.18.
5.  John.L, Michel . V (2007): NonLinear Dimensionality Reduction, NewYork, USA, PP.45-55.
6.  Richard . D, Peter. H, David. S (2001) :Pattern classification ,2nd ed, Wiley, New York, PP.35.
7.  Vel’asquez, J. D., Palade V.  (2008): "Adaptive Websites: A Knowledge Extraction From Web Data Approach," IOS Press, Amsterdam, NL.
8.  Hannah, H., Thangavel, K.(2009): Rough set based User profiling for Web Personalization, International Journal of Recent Trends in Engineering, Vol. (2), No. (1).
9.  Kamber,M . and Han, J.(2006) : Data mining Concepts and Techniques. All rights reserved by Elsevier Inc. 13:978-1-55860-901-3.
10.              Yuefeng. L, Ning. Z (2004): Web Mining Model and Its Applications for Information Gathering, Journal of  Knowledge-Based Systems, Vol (17), PP. 207–217.
11.              David. S, Antonio. M (2009): Web Mining Techniques for Automatic Discovery of Medical Knowledge, Department of Computer Science and Mathematics Universitat Rovira, Available Online at http://www.Sciencedirect.com, Accessed On 27 march
12.              Srivastava, J, et al (2005): Web Mining – Concepts, Applications and Research Directions, Journal of Computer Science, Vol (180), PP. 275–307.
13.              Lan. Y, Bing. L (2006) : Web Page Cleaning for Web Mining through Feature Weighting, Available Online at http://www.Sciencedirect.com, Accessed On 27 march 2010.
14.              David .J, et al (2007) : Visual Web Mining , Machine Learning Journal, Vol (42), PP.31–60.
15.              Cheng. Y, et al (2009) : Applications of Web Mining for Marketing of Online Bookstores, Journal of Expert Systems with Applications, Vol(39), PP. 11249–11256.
16.              Tuncay. S, Necmi. D, Zafer. C (2010): Virtual Education Environments and Web Mining, Journal of Procedia Social and Behavioral Sciences, Vol (2),PP. 5120–5124.
17.              Rathod, D. (2012): A Review On Web Mining, International Journal of Engineering Research and Technology (IJERT), ISSN: 2278-0181, Vol. (1) Issue (2), April.
18.              Taherizadeh, S., Moghadam N. (2009): Integrating Web Content Mining into Web Usage Mining for Finding Patterns and Predicting Users’ Behaviors, International Journal of Information Science and Management, Vol. (7), No. (1).
19.              Jain,R. Purohit, G. N.(2011): Page Ranking Algorithms for Web Mining, International Journal of Computer Applications, Vol(13)– No.(5), pp.0975 – 8887.
20.              Kohavi. R and Parekh. R (2003): Ten supplementary analyses to improve e-commerce web sites. In Proceeding of the Fifth WEBKDD workshop.
21.              Gutschmidt, A., Cap, C. H., Nerdinger, F.W. , (2008): Paving the Path to Automatic User Task Identification. Workshop on Common Sense Knowledge and Goal-Oriented Interfaces, International Conference on Intelligent User Interfaces.
22.              Dunham,H. (2003): "data mining introductory and advanced topic", pearson education INC.- Eirinaki,M. and Vazirgiannis,M.(2003)" Web mining for web personalization", http://www.soe.ucsc.edu/eirinaki/papers/Ev03_TOIT.pdf, may 2008.
23.              Ling Zheng, Hui Gui and Feng Li,( 2010) “ Optimized Data Preprocessing Technology For Web Log Mining”, IEEE International Conference On Computer Design and Applications( ICCDA ), pp. VI-19-VI-21. 
24.              SubMasthan, T., Ravindra, Y., Satish, U., Sandeep, S., Srikanth, K. (2012):  An Effective Framework For Identifying Personalized Web Recommender System By Applying Web Usage Mining, International Journal of Engineering Research and Applications (IJERA), Vol. (2), Issue (3), pp. 307-312.    
25.              Vel’asquez, J. D., Palade V.  (2008): "Adaptive Websites: A Knowledge Extraction From Web Data Approach," IOS Press, Amsterdam, NL.
26.              Kiruthika, M.(2011): Pattern Discovery Using Association Rules, International Journal of Advanced Computer Science and Applications (IJACSA), Vol. (2), No. (12).
27.              Suresh, K.,  Madana, R.,  Rama, A. (2011): Improved FCM algorithm for Clustering on Web Usage Mining, IJCSI International Journal of Computer Science, ISSN (Online): 1694-081, Vol. (8), No(1), www.IJCSI.org.
28.              Usama Fayyad, et al(2009): From Data Mining to Knowledge Discovery in Databases, Morgan Kaufmann, USA.