خیلی بعید است که تابحال چنین گلایه ای را شنیده باشید. اغلب کسانی که با داده کار می‌کنند، روی جمع‌آوری داده و خوراندن آن به الگوریتم تحلیل داده تمرکز دارند. مدیران هم که فقط به خروجی می‌اندیشند. زمانی که کار با مشکل روبرو می‌شود لازم است یکی پیدا شود و فقط یک جمله بگوید: داده‌ها کثیف هستند جناب مدیر

داده‌ها کثیف هستند جناب مدیر

 

افسانه اول: داده برای مدیر تولید می‌شود

امروزه سازمانها در دریایی از داده‌ها غرق هستند. اما استفاده آنها از این داده‌ها به زحمت به اندازه لیوان آبی می‌شود. این از آن جهت است که توانایی سازمانها برای ذخیره‌سازی داده‌ها بسیار بیشتر از توانایی آنها برای استفاده از داده‌ها است. این نکته را بگذارید کنار این واقعیت که سیستمهای ذخیره‌سازی داده، بدون توجه به مدیر، در حال ثبت داده‌ها هستند. نرم‌افزارهای فروش، حسابداری، انبار، نیروی انسانی و مانند اینها برای ثبت داده به مدیر نگاه نمی‌کنند. دیگر اتفاقاتی که مشتریان روی وبسایت، شبکه‌های اجتماعی و در کل در بیرون از سازمان شما رقم می‌زنند بماند.  داده را افراد دیگر بر اساس منافعشان تولید می‌کنند و سیستمهای ذخیره‌سازی داده هم فقط برای ذخیره‌سازی بهینه‌سازی شده‌اند.

آیا فریب‌های تحلیل داده را می‌شناسید؟

این یعنی اینکه داده‌ها با استانداردهای مختلف ذخیره می‌شوند و همواره دارای کیفیت مناسب نیستند. داده‌ها نیت و نظر شما را دنبال نمی‌کنند.

داده‌ها برای شما تولید نمی‌شوند جناب مدیر! جناب تحلیلگر داده با شما هم هستم.

 

افسانه دوم: داده‌ی در دسترس، مثل آب قابل خوردن است

دسترسی به داده‌ها برای سازمان‌هایی که در دریایی از داده غرق هستند نباید کار چندان دشواری باشد. اما داده به درد چه کسی می‌خورد؟ چه کسی قرار است تا از دل داده، دانش را بیرون بکشد؟ جواب، الگوریتمهای تحلیلی و یا ابزار بصری‌سازی. اگر بخواهید از این الگوریتمها و ابزار استفاده کنید باید بدانید که اینها تنها می‌توانند داده‌ها در قالب مشخص و محدودی را به عنوان ورودی بپذیرند. و دیگر اینکه ورودی بی‌کیفیت می‌تواند کارکرد ماژول (تحلیل یا بصری‌سازی) را مختل کند. همچنین می‌تواند نتایج گمراه‌کننده به دنبال داشته باشد. اگر هم نخواهید از اینها استفاده کنید که بهتر است داده‌ها را بگذارید در کوزه و درب آن را محکم ببندید!

کیفیت داده‌ها باید مورد توجه قرار بگیرد

این یعنی داده‌ هم برای شما تولید نشده و هم برای الگوریتمها و ابزار. اما خوشبختانه نرم‌افزارهایی وجود دارند که می‌توانند آن داده‌ها را به ورودی‌های مناسب برای تحلیل و بصری‌سازی تبدیل کنند.

 

افسانه سوم: کافی است داده‌ها را تبدیل به ورودی‌های مناسب کنید؛ همین.

باور کنید همیشه و همه جا قضیه به این سادگی نیست! داده‌ها چموش‌تر از این حرف‌ها هستند. و بیشتر از اینها ناز دارند. گذشته از این موضوعات، آنها گاهی آن طور که خیال می‌کنیم قابل استفاده نیستند. بهتر بگویم آنها اغلب کثیف‌تر از آنی هستند که فکرش را می‌کنید. اینقدر کثیف که نرم‌افزارهای تبدیل آنها به ورودی‌های مناسب هم در عجب می‌مانند.

 

داده‌ها کثیف هستند جناب مدیر

ممکن است داده‌ها به هنگام ثبت تحت تاثیر یک عامل بیرونی، تغییر کرده باشند. یا رکوردهایی در داده‌ها باشند که در مقایسه با بقیه پرت باشند. یا بعضی آنها تکراری (بیش از یک بار یک ثبت انجام شده باشد) باشند و بعضی ناسازگار (یک جایی ترتیب A-B-C است و جای دیگر 1-2-3). چنین داده‌هایی را کثیف می‌دانیم. تمیز کردن این داده‌ها و آماده کردن آنها برای تحلیل کلی زحمت دارد.

خوب است بدانید که به طور متوسط حدود 60 الی 70 درصد فعالیت‌هایی که صرف یک پروژه تحلیل داده می‌شود برای تمیزسازی و آماده کردن داده‌ها هزینه می‌شود.

داده نیاز به تمیز کردن دارد

این را فقط از این جهت عرض نکردم که در برآورد زمان و هزینه بتوانید بهتر عمل کنید. قصه این است که اگر شما چه به عنوان مدیر و چه به عنوان تحلیلگر اگر درک مناسبی از ویژگی‌های داده نداشته باشید قطعا به مشکل برمی‌خورید. داده‌ها به شما دروغ خواهند گفت یا گمراهتان می‌کنند.

با انبار داده، قلب هوش تجاری آشنا شوید

ممکن است بگویید «خوب می‌توان داده‌های مشکل‌دار را براحتی شناسایی و حذف کرد :)». در جواب به ناچار باید بگویم که همیشه به این سادگی نیست. گاهی راهبرد حذف ممکن است به از بین رفتن بخش قابل توجهی از داده‌های شما منجر شود. برای مواجهه با داده‌های کثیف می‌توان در کنار حذف، به حدس مقادیر آنها و یا نادیده‌گرفتن یک مقدار در محاسبه اشاره کرد. رویکردهای دیگری هم وجود دارد که در مقاله دیگری خدمت شما عرضه خواهد شد.

 

سخن پایانی

در پایان باید بگویم که آماده‌سازی داده برای داده مثل آموزش و پرورش می‌ماند برای انسان‌ها. اگر بتوانیم بچه ها را از 7 سالگی تا ورود به اجتماع خوب آموزش و خوب پرورش دهیم دستاوردهای فوق العاده‌ای از آنها خواهیم دید. اما اگر به آموزش و پرورش آنها کم توجه یا بی توجه باشیم، نباید انتظار نتایج دلپذیر از آنها را داشته باشیم. داده‌ها هم زمانی که خوب آماده شده باشند می‌توانند به کشف و استخراج دانش منتهی شوند و مزیت رقابتی ایجاد کنند.

امیرمحسن کریمی مجد
karimimajd@busihoush.ir
مدرک دکتری را در رشته مهندسی صنایع گرایش مهندسی سیستمهای اقتصادی اجتماعی در سال 1396 از دانشگاه علم و صنعت دریافت کرده ام. در دوره دکتری حوزه پژوهشی من حوزه تحلیل شبکه های اجتماعی بوده است. دو کسب و کار به همراه دوستانم در حوزه‌های داده کاوی و هوش تجاری راه اندازی کرده ام. در دوره کارشناسی و کارشناسی ارشد در دانشگاههای تهران و امیرکبیر، در پروژه های گوناگونی در حوزه سیستمهای اطلاعاتی و هوش مصنوعی شرکت داشته ام.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *