ما هو التنقيب عن البيانات What Is Data Mining؟
التنقيب عن البيانات هو عملية البحث عن مجموعة كبيرة من البيانات الخام وتحليلها من أجل تحديد الأنماط واستخراج المعلومات المفيدة.
تستخدم الشركات برامج التنقيب عن البيانات لمعرفة المزيد عن عملائها. يمكن أن تساعدهم على تطوير استراتيجيات تسويق أكثر فاعلية وزيادة المبيعات وخفض التكاليف. يعتمد التنقيب في البيانات على فعالية جمع البيانات وتخزينها ومعالجتها بواسطة الكمبيوتر.
- التنقيب عن البيانات هو عملية تحليل مجموعة كبيرة من المعلومات لتمييز الاتجاهات والأنماط.
- يمكن للشركات استخدام التنقيب عن البيانات في كل شيء بدءًا من التعرف على ما يهتم به العملاء أو يرغبون في شرائه وحتى اكتشاف الاحتيال وتصفية البريد العشوائي.
- تعمل برامج التنقيب عن البيانات على تفكيك الأنماط والوصلات في البيانات بناءً على المعلومات التي يطلبها المستخدمون أو يقدمونها.
- تستخدم شركات وسائل التواصل الاجتماعي تقنيات استخراج البيانات لتسليع مستخدميها من أجل جني الأرباح.
- تعرض هذا الاستخدام للتنقيب عن البيانات لانتقادات مؤرًا لأن المستخدمين غالبًا ما يكونون غير مدركين لاستخراج البيانات الذي يحدث مع معلوماتهم الشخصية ، خاصةً عند استخدامها للتأثير على التفضيلات.
كيف يعمل تعدين البيانات How Data Mining Works
يتضمن التنقيب عن البيانات استكشاف وتحليل كتل كبيرة من المعلومات لاستخلاص أنماط واتجاهات ذات مغزى. يتم استخدامه في إدارة مخاطر الائتمان والكشف عن الاحتيال وتصفية البريد العشوائي. إنها أيضًا أداة بحث سوق تساعد في الكشف عن مشاعر أو آراء مجموعة معينة من الناس. تنقسم عملية التنقيب عن البيانات إلى أربع خطوات:
- يتم جمع البيانات وتحميلها في مستودعات البيانات في الموقع أو على خدمة سحابية.
- يقوم محللو الأعمال وفرق الإدارة ومتخصصو تكنولوجيا المعلومات بالوصول إلى البيانات وتحديد كيفية تنظيمها.
- يقوم برنامج التطبيق المخصص بفرز وتنظيم البيانات.
- يقدم المستخدم النهائي البيانات بتنسيق سهل المشاركة ، مثل رسم بياني أو جدول.
برامج تخزين البيانات والتعدين Data Warehousing and Mining Software
تقوم برامج التنقيب عن البيانات بتحليل العلاقات والأنماط في البيانات بناءً على طلبات المستخدم. ينظم المعلومات في فصول.
على سبيل المثال ، قد يرغب مطعم ما في استخدام التنقيب عن البيانات لتحديد العروض الخاصة التي يجب أن يقدمها وفي أي أيام. يمكن تنظيم البيانات في فئات بناءً على وقت زيارة العملاء وما يطلبونه.
في حالات أخرى ، يجد عمال مناجم البيانات مجموعات من المعلومات بناءً على العلاقات المنطقية أو ينظرون إلى الارتباطات والأنماط المتسلسلة لاستخلاص استنتاجات حول الاتجاهات في سلوك المستهلك.
التخزين هو جانب مهم من التنقيب عن البيانات. التخزين هو مركزية بيانات المنظمة في قاعدة بيانات أو برنامج واحد. يسمح للمؤسسة بفصل أجزاء من البيانات لمستخدمين محددين لتحليلها واستخدامها حسب احتياجاتهم.
تستخدم حلول مستودعات البيانات السحابية مساحة وقوة موفر السحابة لتخزين البيانات. يتيح ذلك للشركات الصغيرة الاستفادة من الحلول الرقمية للتخزين والأمان والتحليلات.
تقنيات التنقيب عن البيانات Data Mining Techniques
يستخدم التنقيب عن البيانات الخوارزميات وتقنيات أخرى مختلفة لتحويل مجموعات كبيرة من البيانات إلى مخرجات مفيدة. تشمل الأنواع الأكثر شيوعًا لتقنيات التنقيب عن البيانات ما يلي:
قواعد الارتباط Association rules ، والتي يشار إليها أيضًا باسم تحليل سلة السوق ، تبحث عن العلاقات بين المتغيرات. هذه العلاقة في حد ذاتها تخلق قيمة إضافية داخل مجموعة البيانات لأنها تسعى جاهدة لربط أجزاء من البيانات. على سبيل المثال ، ستبحث قواعد الارتباط في سجل مبيعات الشركة لمعرفة المنتجات الأكثر شيوعًا التي يتم شراؤها معًا ؛ باستخدام هذه المعلومات ، يمكن للمتاجر التخطيط والترويج والتنبؤ.
يستخدم التصنيف Classification فئات محددة مسبقًا لتعيين الكائنات. تصف هذه الفئات خصائص العناصر أو تمثل ما تشترك فيه نقاط البيانات مع كل منها. تسمح تقنية استخراج البيانات هذه بتصنيف البيانات الأساسية وتلخيصها بشكل أكثر دقة عبر ميزات أو خطوط إنتاج متشابهة.
التجميع Clustering مشابه للتصنيف. ومع ذلك ، فإن التجميع يحدد أوجه التشابه بين الكائنات ، ثم يقوم بتجميع تلك العناصر بناءً على ما يجعلها مختلفة عن العناصر الأخرى. في حين أن التصنيف قد ينتج عنه مجموعات مثل "الشامبو" و "البلسم" و "الصابون" و "معجون الأسنان" ، فقد تحدد المجموعات مجموعات مثل "العناية بالشعر" و "صحة الأسنان".
تُستخدم أشجار القرار Decision trees لتصنيف أو توقع نتيجة بناءً على قائمة محددة من المعايير أو القرارات. تُستخدم شجرة القرار لطلب إدخال سلسلة من الأسئلة المتتالية التي تفرز مجموعة البيانات بناءً على الإجابات المقدمة. في بعض الأحيان يتم تصويرها على أنها مرئية تشبه الشجرة ، تتيح شجرة القرار توجيهًا محددًا وإدخال المستخدم عند التعمق في البيانات.
K-Nearest neighbour (KNN) هي خوارزمية تصنف البيانات بناءً على قربها من البيانات الأخرى. أساس KNN متجذر في افتراض أن نقاط البيانات القريبة من بعضها البعض أكثر تشابهًا مع بعضها البعض من وحدات البيانات الأخرى. تُستخدم هذه التقنية غير المعلمية والخاضعة للإشراف للتنبؤ بسمات المجموعة بناءً على نقاط البيانات الفردية.
تعالج الشبكات العصبية Neural networks البيانات من خلال استخدام العقد. تتكون هذه العقد من المدخلات والأوزان والمخرجات. يتم تعيين البيانات من خلال التعلم الخاضع للإشراف ، على غرار الطرق التي يترابط بها الدماغ البشري. يمكن برمجة هذا النموذج لإعطاء قيم حدية لتحديد دقة النموذج.
يسعى التحليل التنبئي Predictive analysis إلى الاستفادة من المعلومات التاريخية لبناء نماذج رسومية أو رياضية للتنبؤ بالنتائج المستقبلية. تهدف هذه التقنية ، المتداخلة مع تحليل الانحدار ، إلى دعم رقم غير معروف في المستقبل بناءً على البيانات الحالية المتوفرة.
عملية تنقيب البيانات
لكي تكون أكثر فاعلية ، يتبع محللو البيانات عمومًا تدفقًا معينًا من المهام على طول عملية استخراج البيانات. بدون هذا الهيكل ، قد يواجه المحلل مشكلة في منتصف تحليله كان من الممكن منعها بسهولة لو أنه أعد لها مسبقًا. عادة ما يتم تقسيم عملية استخراج البيانات إلى الخطوات التالية.
الخطوة الأولى: فهم العمل The Data Mining Process
قبل لمس أي بيانات أو استخراجها أو تنظيفها أو تحليلها ، من المهم فهم الكيان الأساسي والمشروع قيد البحث. ما هي الأهداف التي تحاول الشركة تحقيقها من خلال التنقيب عن البيانات؟ ما هو وضعهم التجاري الحالي؟ ما هي نتائج تحليل SWOT؟ قبل النظر إلى أي بيانات ، تبدأ عملية التعدين بفهم ما سيحدد النجاح في نهاية العملية.
الخطوة الثانية: فهم البيانات
بمجرد تحديد مشكلة العمل بوضوح ، حان الوقت لبدء التفكير في البيانات. يتضمن ذلك المصادر المتاحة ، وكيف سيتم تأمينها وتخزينها ، وكيف سيتم جمع المعلومات ، وكيف يمكن أن تبدو النتيجة النهائية أو التحليل. تتضمن هذه الخطوة أيضًا تحديد حدود البيانات والتخزين والأمان والتجميع وتقييم كيفية تأثير هذه القيود على عملية استخراج البيانات.
الخطوة 3: تحضير البيانات
يتم جمع البيانات أو تحميلها أو استخراجها أو حسابها. ثم يتم تنظيفها وتوحيدها وتنقيتها بحثًا عن القيم المتطرفة وتقييم الأخطاء والتحقق من مدى معقوليتها. خلال هذه المرحلة من التنقيب في البيانات ، يمكن أيضًا التحقق من البيانات من أجل الحجم لأن مجموعة كبيرة من المعلومات قد تؤدي دون داعٍ إلى إبطاء العمليات الحسابية والتحليل.
الخطوة 4: بناء النموذج
مع وجود مجموعة بياناتنا النظيفة في متناول اليد ، فقد حان الوقت لحل الأرقام. يستخدم علماء البيانات أنواع التنقيب في البيانات أعلاه للبحث عن العلاقات أو الاتجاهات أو الارتباطات أو الأنماط المتسلسلة. يمكن أيضًا تغذية البيانات في النماذج التنبؤية لتقييم كيفية ترجمة أجزاء المعلومات السابقة إلى نتائج مستقبلية.
الخطوة 5: تقييم النتائج
يختتم الجانب المتمحور حول البيانات في التنقيب عن البيانات من خلال تقييم نتائج نموذج البيانات أو النماذج. يمكن تجميع نتائج التحليل وتفسيرها وتقديمها إلى صانعي القرار الذين تم استبعادهم إلى حد كبير من عملية التنقيب عن البيانات حتى هذه النقطة. في هذه الخطوة ، يمكن للمؤسسات أن تختار اتخاذ قرارات بناءً على النتائج.
الخطوة 6: تنفيذ التغيير والمراقبة
تنتهي عملية التنقيب عن البيانات باتخاذ الإدارة خطوات استجابة لنتائج التحليل. قد تقرر الشركة أن المعلومات لم تكن قوية بما يكفي أو أن النتائج لم تكن ذات صلة. أو قد تتمحور الشركة بشكل استراتيجي بناءً على النتائج. في كلتا الحالتين ، تقوم الإدارة بمراجعة التأثيرات النهائية للأعمال وتعيد إنشاء حلقات التنقيب عن البيانات المستقبلية من خلال تحديد مشاكل أو فرص عمل جديدة.
سيكون لنماذج معالجة التنقيب عن البيانات المختلفة خطوات مختلفة ، على الرغم من أن العملية العامة عادة ما تكون متشابهة إلى حد كبير. على سبيل المثال ، يحتوي نموذج قواعد بيانات اكتشاف المعرفة على تسع خطوات ، ونموذج CRISP-DM له ست خطوات ، ونموذج عملية SEMMA يحتوي على خمس خطوات.
تطبيقات التنقيب عن البيانات Applications of Data Mining
في عصر المعلومات اليوم ، يمكن لأي قسم أو صناعة أو قطاع أو شركة تقريبًا الاستفادة من التنقيب عن البيانات.
مبيعات Sales
يشجع التنقيب عن البيانات على استخدام أكثر ذكاءً وكفاءة لرأس المال لدفع نمو الإيرادات. ضع في اعتبارك سجل نقاط البيع في المقهى المحلي المفضل لديك. لكل عملية بيع ، يجمع هذا المقهى الوقت الذي تم فيه الشراء والمنتجات التي تم بيعها. باستخدام هذه المعلومات ، يمكن للمحل صياغة خط إنتاجه بشكل استراتيجي.
تسويق Marketing
بمجرد أن يعرف المقهى أعلاه التشكيلة المثالية ، فقد حان الوقت لتنفيذ التغييرات. ومع ذلك ، لجعل جهوده التسويقية أكثر فاعلية ، يمكن أن يستخدم المتجر التنقيب عن البيانات لفهم المكان الذي يرى فيه عملاؤه الإعلانات ، والتركيبة السكانية التي يجب استهدافها ، ومكان وضع الإعلانات الرقمية ، وما هي استراتيجيات التسويق التي تلقى صدى أكبر لدى العملاء. يتضمن ذلك مواءمة الحملات التسويقية والعروض الترويجية وعروض البيع المتقاطع والبرامج مع نتائج التنقيب في البيانات.
تصنيع Manufacturing
بالنسبة للشركات التي تنتج سلعها الخاصة ، يلعب استخراج البيانات دورًا أساسيًا في تحليل مقدار تكاليف كل مادة خام ، وما هي المواد المستخدمة بكفاءة أكبر ، وكيف يتم قضاء الوقت على طول عملية التصنيع ، وما هي الاختناقات التي تؤثر سلبًا على العملية. يساعد التنقيب في البيانات على ضمان عدم انقطاع تدفق البضائع.
الكشف عن الغش Fraud Detection
يتمثل جوهر التنقيب في البيانات في العثور على الأنماط والاتجاهات والارتباطات التي تربط نقاط البيانات معًا. لذلك ، يمكن للشركة استخدام التنقيب عن البيانات لتحديد القيم المتطرفة أو الارتباطات التي لا ينبغي أن تكون موجودة. على سبيل المثال ، قد تقوم الشركة بتحليل التدفق النقدي الخاص بها وتجد معاملة متكررة إلى حساب غير معروف. إذا كان هذا غير متوقع ، فقد ترغب الشركة في التحقق مما إذا كانت الأموال تُدار بشكل سيء.
الموارد البشرية Human Resources
غالبًا ما يكون لدى إدارات الموارد البشرية مجموعة واسعة من البيانات المتاحة للمعالجة بما في ذلك بيانات عن الاحتفاظ ، والترقيات ، ونطاقات الرواتب ، ومزايا الشركة ، واستخدام تلك المزايا ، واستطلاعات رضا الموظفين. يمكن أن يربط التنقيب في البيانات بين هذه البيانات للحصول على فهم أفضل لسبب مغادرة الموظفين وما الذي يغري التعيينات الجديدة.
خدمة الزبائن Customer Service
قد يكون سبب رضا العملاء (أو إتلافه) لعدة أسباب. تخيل شركة تشحن البضائع. قد يكون العميل غير راضٍ عن أوقات الشحن أو جودة الشحن أو الاتصالات. قد يشعر العميل بالإحباط بسبب فترات الانتظار الطويلة عبر الهاتف أو بطء استجابات البريد الإلكتروني. يجمع التنقيب عن البيانات المعلومات التشغيلية حول تفاعلات العملاء ويلخص النتائج لتحديد نقاط الضعف وإبراز ما تفعله الشركة بشكل صحيح.
فوائد التنقيب في البيانات Benefits of Data Mining
يضمن التنقيب عن البيانات قيام الشركة بجمع وتحليل بيانات موثوقة. غالبًا ما تكون عملية أكثر صرامة وتنظيمًا تحدد المشكلة رسميًا ، وتجمع البيانات المتعلقة بالمشكلة ، وتسعى جاهدة لصياغة حل. لذلك ، يساعد التنقيب في البيانات الأعمال على أن تصبح أكثر ربحية أو أكثر كفاءة أو أقوى من الناحية التشغيلية.
يمكن أن يبدو استخراج البيانات مختلفًا تمامًا عبر التطبيقات ، ولكن يمكن استخدام العملية الشاملة مع أي تطبيق جديد أو قديم تقريبًا. بشكل أساسي ، يمكن جمع أي نوع من البيانات وتحليله ، ويمكن معالجة كل مشكلة تجارية تقريبًا تعتمد على أدلة قابلة للتأهيل باستخدام التنقيب عن البيانات.
الهدف النهائي من استخراج البيانات هو أخذ أجزاء خام من المعلومات وتحديد ما إذا كان هناك تماسك أو ارتباط بين البيانات. تسمح ميزة التنقيب عن البيانات هذه للشركة بإنشاء قيمة بالمعلومات المتوفرة لديها والتي لولا ذلك لن تكون واضحة بشكل مفرط. على الرغم من أن نماذج البيانات يمكن أن تكون معقدة ، إلا أنها يمكن أن تسفر أيضًا عن نتائج رائعة ، وتكشف عن اتجاهات خفية ، وتقترح استراتيجيات فريدة.
حدود التنقيب في البيانات Limitations of Data Mining
هذا التعقيد في استخراج البيانات هو أحد أكبر عيوبه. غالبًا ما تتطلب تحليلات البيانات مجموعات مهارات فنية وأدوات برمجية معينة. قد تجد الشركات الصغيرة أن هذا يشكل عائقاً أمام الدخول يصعب التغلب عليه.
لا يضمن التنقيب عن البيانات النتائج دائمًا. يجوز للشركة إجراء تحليل إحصائي ، والتوصل إلى استنتاجات بناءً على بيانات قوية ، وتنفيذ التغييرات ، وعدم جني أي فوائد. من خلال النتائج غير الدقيقة ، أو تغييرات السوق ، أو أخطاء النماذج ، أو مجموعات البيانات غير الملائمة ، يمكن للتنقيب في البيانات أن يوجه القرارات فقط ولا يضمن النتائج.
هناك أيضًا عنصر تكلفة لاستخراج البيانات. قد تتطلب أدوات البيانات اشتراكات مكلفة ، وقد يكون الحصول على بعض أجزاء البيانات مكلفًا. يمكن تهدئة مخاوف الأمان والخصوصية ، على الرغم من أن البنية التحتية الإضافية لتكنولوجيا المعلومات قد تكون مكلفة أيضًا. قد يكون التنقيب عن البيانات أكثر فاعلية عند استخدام مجموعات البيانات الضخمة ؛ ومع ذلك ، يجب تخزين مجموعات البيانات هذه وتتطلب قدرة حسابية كبيرة لتحليلها.
حتى الشركات الكبيرة أو الوكالات الحكومية تواجه تحديات في التنقيب عن البيانات. ضع في اعتبارك الورقة البيضاء الصادرة عن إدارة الغذاء والدواء بشأن التنقيب في البيانات والتي تحدد تحديات المعلومات السيئة أو البيانات المكررة أو عدم الإبلاغ أو الإفراط في الإبلاغ
التنقيب عن البيانات ووسائل التواصل الاجتماعي Data Mining and Social Media
أحد أكثر التطبيقات المربحة للتنقيب عن البيانات هو الذي قامت به شركات التواصل الاجتماعي. تجمع منصات مثل Facebook و TikTok و Instagram و Twitter رزمًا من البيانات حول مستخدميها ، بناءً على أنشطتهم عبر الإنترنت.
يمكن استخدام هذه البيانات لعمل استنتاجات حول تفضيلاتهم. يمكن للمعلنين توجيه رسائلهم إلى الأشخاص الذين من المرجح أن يستجيبوا بشكل إيجابي.
أصبح التنقيب عن البيانات على وسائل التواصل الاجتماعي نقطة خلاف كبيرة ، مع العديد من التقارير الاستقصائية والكشفات التي توضح كيف يمكن أن تكون بيانات مستخدمي التعدين متطفلة. في قلب المشكلة ، قد يوافق المستخدمون على شروط وأحكام المواقع دون إدراك كيفية جمع معلوماتهم الشخصية أو لمن يتم بيع معلوماتهم.
أمثلة على التنقيب في البيانات Examples of Data Mining
يمكن استخدام التنقيب عن البيانات من أجل الخير ، أو يمكن استخدامه بشكل غير قانوني. هنا مثال على كليهما.
موقع ئي باي والتجارة الإلكترونية eBay and e-Commerce
يجمع eBay أجزاء لا حصر لها من المعلومات كل يوم من البائعين والمشترين. تستخدم الشركة التنقيب عن البيانات لربط العلاقات بين المنتجات وتقييم نطاقات الأسعار المطلوبة وتحليل أنماط الشراء السابقة وتشكيل فئات المنتجات.
يحدد موقع eBay عملية التوصية على النحو التالي:
- يتم تجميع بيانات تعريف العنصر الخام وبيانات المستخدم التاريخية.
- يتم تشغيل Scrips على نموذج مدرب لإنشاء العنصر والمستخدم والتنبؤ به.
- يتم إجراء بحث KNN.
- النتائج مكتوبة في قاعدة بيانات.
- تأخذ التوصية في الوقت الفعلي معرف المستخدم ، وتستدعي نتائج قاعدة البيانات ، وتعرضها على المستخدم.
فضيحة فيسبوك كامبريدج أناليتيكا Facebook-Cambridge Analytica Scandal
مثال تحذيري آخر للتنقيب في البيانات هو فضيحة بيانات Facebook-Cambridge Analytica. خلال عام 2010 ، جمعت شركة الاستشارات البريطانية Cambridge Analytica Ltd. بيانات شخصية من ملايين مستخدمي Facebook. تم تحليل هذه المعلومات لاحقًا لاستخدامها في الحملات الرئاسية لعام 2016 لتيد كروز ودونالد ترامب. يُشتبه في أن Cambridge Analytica تدخلت في أحداث بارزة أخرى مثل استفتاء خروج بريطانيا من الاتحاد الأوروبي.
في ضوء هذا التنقيب غير الملائم في البيانات وإساءة استخدام بيانات المستخدم ، وافق Facebook على دفع 100 مليون دولار لتضليل المستثمرين بشأن استخداماته لبيانات المستهلك. زعمت لجنة الأوراق المالية والبورصات أن Facebook اكتشف إساءة الاستخدام في عام 2015 لكنها لم تصحح إفصاحاتها لأكثر من عامين.
ما هي أنواع التنقيب عن البيانات What Are the Types of Data Mining؟
هناك نوعان رئيسيان من التنقيب في البيانات: التنقيب عن البيانات التنبؤية والتنقيب عن البيانات الوصفية. استخراج البيانات التنبؤية يستخرج البيانات التي قد تكون مفيدة في تحديد النتيجة. يُعلم التنقيب في بيانات الوصف المستخدمين عن نتيجة معينة.
كيف يتم التنقيب عن البيانات How Is Data Mining Done ؟
يعتمد التنقيب عن البيانات على البيانات الضخمة وعمليات الحوسبة المتقدمة بما في ذلك التعلم الآلي وأشكال أخرى من الذكاء الاصطناعي (AI). الهدف هو العثور على أنماط يمكن أن تؤدي إلى استنتاجات أو تنبؤات من مجموعات بيانات كبيرة وغير منظمة.
ما هو المصطلح الآخر للتنقيب في البيانات What Is Another Term for Data Mining ؟
يمر التنقيب عن البيانات أيضًا بالمصطلح الأقل استخدامًا "اكتشاف المعرفة في البيانات" أو KDD.
أين يتم استخدام التنقيب عن البيانات Where Is Data Mining Used ؟
تم تصميم تطبيقات التنقيب عن البيانات لتقوم بأي مسعى يعتمد على البيانات الضخمة. تبحث الشركات في القطاع المالي عن الأنماط في الأسواق. تحاول الحكومات تحديد التهديدات الأمنية المحتملة. تستخدم الشركات ، وخاصة شركات الوسائط الاجتماعية عبر الإنترنت ، التنقيب عن البيانات لإنشاء حملات إعلانية وتسويقية مربحة تستهدف مجموعات محددة من المستخدمين.
تمتلك الشركات الحديثة القدرة على جمع المعلومات عن عملائها ومنتجاتها وخطوط التصنيع والموظفين وواجهات المحلات. قد لا تحكي هذه الأجزاء العشوائية من المعلومات قصة ، لكن استخدام تقنيات وتطبيقات وأدوات استخراج البيانات يساعد في تجميع المعلومات معًا.
الهدف النهائي لعملية استخراج البيانات هو تجميع البيانات وتحليل النتائج وتنفيذ الاستراتيجيات التشغيلية بناءً على نتائج التنقيب عن البيانات.
تعليقات