در گذشته راجع به اینکه تحلیل داده می تواند فریبنده باشد صحبت کردیم. به عنوان آخرین فریب تحلیل داده در این نوشته می خواهیم راجع به یک موضوع مهم موضوع صحبت کنیم. آیا میتوان از موشک داده کاوی هم برای کشتن پشه هم برای حمله به مسائل بزرگ استفاده کرد؟

موشک داده کاوی

ابزارهای تحلیل داده به ویژه روشهای داده کاوی ابزارهای قدرتمندی هستند که از پس مسائل پیچیده و بزرگ بر می آیند. اما این دلیل نمی شود بخواهیم همه مسائل را با تحلیل داده حل کنیم. هر مسأله نیازمندی های خاص خود را دارد و یک متخصص حوزه تحلیل داده می داند که چه مسأله ای نیازمند کدام ابزار است.

داده کاوی

به طور خلاصه، علم داده کاوی در برگیرنده مفاهیم، مدلها و ابزار قدرتمند جهت انجام تحلیل های پیچیده بر روی داده است. داده کاوی به نوعی زیر مجموعه تحلیل داده به شمار می‌رود. خروجی داده کاوی اغلب توصیفی از اوضاع سیستم مورد مطالعه (مثلا چند دسته مشتری از نظر شدت فعالیت داریم؟ در هر یک از گروه‌های شبکه اجتماعی، بیشتر حرف بر سر چه نوع موضوعاتی است؟) یا پیش بینی از آینده آن است (فروش ماه آینده حدودا چقدر خواهد بود؟ مشتریانی که امروز سس قرمز را پسندیدند فردا چه نوع سسی را خواهند خرید؟).

کشتن پشه

گفته می شود بعضی از مدعیان علم داده کاوی، گستره این علم را بسیار وسیع می‌دانند. آنها، طبق این گزاره که «خروجی فرایند داده کاوی (مانند تحلیل داده)، دانشی است که پیش تر آن را نمی دانستیم» پا را فراتر از مرزهای این علم نهاده و میانگین گیری چند مقدار را هم، از آنجا که پیش از محاسبه مقدار میانگین آن ها را نمی دانیم، در زمره داده کاوی بر می شمرند!! این گزاره اشتباهی خطرناک است. در اینجا آن (اشتباه بودن آن گزاره) را اثبات نمی کنم. فقط به این بیندیشید که اگر چنان باشد، حاصل جمع دو عدد سه رقمی هم داده کاوی خواهد بود. بدین ترتیب داده کاوی، تحلیل داده را دربر خواهد گرفت.

فریب اصلی آنجا است که وجود ابزارهای پرطمطراق داده کاوی سبب شده که افراد «کمی آگاه از آن» به دنبال این باشند که کوچکترین مسایل تحلیلی خود را با آچارکشیهای داده کاوی حل کنند. این یک فریب بزرگ است. زیرا آن عده گویا دنبال این هستند که پشه را با موشک کروز بکشند!

داده کاوی آنجایی کاربرد دارد که به دنبال یافتن یک قالب یا الگو (Pattern) هستیم. این قالب می تواند گروه بندی، صوت، تصویر، فیلم، نوشته یا چیزهایی شبیه به اینها باشد. اما حاصل یک عملیات ساده جبری دیگر قالب نیست. یا به عناون مثالی دیگر، امروزه فهمیدن اینکه چند نفر پوشک خریده اند کار چندان دشواری نیست (برای فروشگاههایی که اطلاعات خرید را مرتباً به طور دیجیتال در حال ثبت هستند). اما اینکه اغلب آنهایی که پوشک خریدند، شیر و شکلات هم خریده اند یک قالب یا الگوی رفتاری جالب است که به راحتی قابل شناسایی نیست. این، کار داده کاوی است.

امیرمحسن کریمی مجد
karimimajd@busihoush.ir
مدرک دکتری را در رشته مهندسی صنایع گرایش مهندسی سیستمهای اقتصادی اجتماعی در سال 1396 از دانشگاه علم و صنعت دریافت کرده ام. در دوره دکتری حوزه پژوهشی من حوزه تحلیل شبکه های اجتماعی بوده است. دو کسب و کار به همراه دوستانم در حوزه‌های داده کاوی و هوش تجاری راه اندازی کرده ام. در دوره کارشناسی و کارشناسی ارشد در دانشگاههای تهران و امیرکبیر، در پروژه های گوناگونی در حوزه سیستمهای اطلاعاتی و هوش مصنوعی شرکت داشته ام.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *