دادهکاوی راهکاری است مبتنی بر تواناییهای کامپیوتر و ماشین که برای مطالعه دادهها، استخراج ساختار، یافتن الگوها و روندهای پنهان در دادهها استفاده میشود. دادهکاوی به کمک الگوها میتواند مدلهایی برای توصیف و شناسایی، پیشبینی، طبقهبندی، تخمین، گروهبندی علت و معلولی و خوشهبندی دادهها توسعه دهد. کاربرد دادهکاوی در حوزههای مختلف علوم از جمله علوم انسانی و اجتماعی که نیاز به تحلیل حجم بالایی از دادهها برای کشف روندها دارند رو به افزایش است.
ریشۀ دادهکاوی به سه حوزۀ علم آمار، هوش مصنوعی و یادگیری ماشین مربوط میشود. مفاهیمی از آمار کلاسیک مانند تحلیل رگرسیونی، توزیع استاندارد، تحلیل ممیزی، تحلیل خوشهای و فواصل اطمینان بهمنظور مطالعه دادهها و روابط بین آنها به کار گرفته میشود و در روشها و ابزارهای دادهکاوی امروز نقش معناداری دارند. زمانی که تعداد متغیرها از تعداد مشاهدات بیشتر شود، برخلاف برخی روشهای دادهکاوی، مدلهای آماری مانند مدل رگرسیونی توانایی تحلیل آنها را از دست میدهند. روشهای مرسوم آماری با اینکه قابلیت پیشبینی را نیز فراهم میکنند، اما کاستیهای قابلتوجهی در تحلیل حجم وسیعی از دادهها دارند. حوزۀ دومی که دادهکاوی از آن بهره میگیرد، هوش مصنوعی است که از حدود سال 1980 پیادهسازی آن عملی شد. هوش مصنوعی بر اساس روشهای ابتکاری سعی دارد که فرآیندی شبیه به سیستم تعقل انسان را برای مسائل آماری به کار گیرد. یادگیری ماشین در دهههای 80 و 90 میلادی بهدلیل ارزانی بهکارگیری در مقایسه با هوش مصنوعی اوج بیشتری گرفت و میتوان آن را سیر تکاملی هوش مصنوعی در نظر گرفت. زیرا این رهیافت روشهای ابتکاری هوش مصنوعی را با تحلیلهای آماری ترکیب میکند.
دادهکاوی با بهرهگیری از هوش مصنوعی و یادگیری ماشین نهتنها بر محدودیتهای روشهای آماری کلاسیک فائق آمده است، بلکه برخی از محدودیتهای انسانی را نیز مرتفع ساخته است. انسان در مواجه شدن با انبوهی از دادهها، صدها متغیر و هزاران مشاهده قدرت تحلیل آماری آنها را بهصورت یکپارچه ندارد. همچنین انسان میتواند تخمینگرهای متفاوتی را با تحلیلهای آماری برآورد کند، اما هیچ انسانی توانایی برآورد تعداد بسیار زیادی از تخمینگرها را با استفاده از روشهای مرسوم ندارد. در این موارد دادهکاوی با تحلیل خودکار دادهها بهصورت یکپارچه کمکی شایان به انسان کرده است.
در یک تعریف جامع از دادهکاوی میتوان آن را فرآیند جستوجوی مدلهای گوناگون مختصر شده و مقادیر مشتق شده از یک مجموعه داده است. توجه به کلمه فرآیند در این تعریف مهم است. مجموعه دادهها صرفاً شامل انتخاب و بهکارگیری ابزار بر مبنای کامپیوتر، برای حل مسائل فعلی و به دست آوردن راهحلی بهصورت خودکار نیست. یک مطالعه دادهای استفاده از برخی فنهای تحلیلی را بررسی میکند و برای بررسی روش دیگر، تصمیمگیری میکند. سپس، از ابتدا شروع میکند و ابراز تحلیل داده دیگری را برای رسیدن به نتایج بهتر و متفاوت به کار میبرد. این فرآیند میتواند بارها و بارها تکرار شود. هر فن برای حل مسئله در جهت بررسی جنبههای متفاوت داده و اکتشاف روابط بین آنها استفاده میشود.
فرآیند دادهکاوی تصادفی نیست، بلکه در یک فرآیند تصمیمگیری بهدقت برنامهریزیشده و هدفمند انجام میشود. این فرآیند خودکار نیست و نیازمند دخالت پژوهشگر در هر مرحله از فرآیند است. حتی بعد از توسعۀ مدل، برای معرفی دادۀ جدید، غالبا به بهروزرسانی مبدل نیاز دارد. دادهکاوی بهطور خودکار راهحلها را کشف نخواهد کرد. نظارت بر کیفیت و ارزیابی نتایج توسط انسان پیدرپی لازم است. لازم است که پژوهشگر درک کامل از دادهها و روشهای تحلیل داشته باشد و دانش دربارۀ مسئله پژوهش و فهم تحلیل را ترکیب کند.
دو هدف اساسی از دادهکاوی، شامل پیشبینی و توصیف است. پیشبینی به معنای بهکارگیری برخی از متغیرها در مجموعۀ دادهها برای درک مقادیر مجهول و نهایی است. توصیف بر یافتن الگوهایی که توسط انسان قابل تفسیر باشد تأکید دارد؛ بنابراین میتوان فعالیتهای دادهکاوی را در دو گروه طبقهبندی کرد. دادهکاوی پیشگویانه مدلی از سیستم توصیفشده توسط مجموعه دادههای مشخص را ارائه میدهد که میتوان از آن برای طبقهبندی، پیشبینی و ارزیابی دیگر اعمال مشابه استفاده کرد. دادهکاوی توصیفی که اطلاعات جدید و کلی را براساس مجموعه دادههای موجود ارائه میکند. به این ترتیب، شناختی از سیستمهای تجزیهوتحلیل شده توسط الگوها و روابط آشکار در مجموعه دادههای بزرگ را ارائه میدهد.
دو روش کلی در دادهکاوی عبارتاند از یادگیری نظارتشده[1]و یادگیری نظارتنشده[2]. در یادگیری نظارتشده، ابتدا تعدادی داده ورودی همراه با دادههای خروجی نظیر آنها به عنوان نمونه داده میشود. این دادههای جفتشده نمونهای از یک الگوی صحیح را نشان میدهند که با ساختن تابعی از روی آنها و تعمیم آن تابع در مورد دادههای دیگر میتوان الگوی مورد نظر را در حجم وسیعی از دادهها پیدا کرد. اما در یادگیری نظارتنشده هیچ نمونه اولیهای داده نمیشود و در نتیجه الگوی موجود در دادهها باید در طول فرایند کشف شود. برای مثال در تحلیل خوشهای، تعدادی داده با ویژگیهای مشخص موجودند اما بر اساس این ویژگیها گروهبندی نشدهاند. وظیفه یادگیری ماشین کشف دادههای نزدیک به هم (بر اساس ویژگیهایشان) و گروهبندی آنهاست.
علیرغم تمامی مزایای ذکرشده، دادهکاوی معایبی نیز دارد. دادهکاوی روشی کاهشیافته[3] است. ابزار و روشهای کاهشیافته متفاوت با ابزار و روشهای ساختاری[4]، به تعامل میان دادهها نمیپردازند و فقط مقادیر ورودی و خروجی برای آنها حائز اهمیت است. لذا در برخی موارد نمیتوان بر مبنای خروجی آنها تصمیمگیری کرد یا نتیجهای خاص گرفت. لازمۀ استفاده از این ابزارها، بهرهمندی از شواهدی در جهان واقعی و نیازمند شناسایی علتها توسط انسان است. همچنین جمعآوری دادههای مورد نیاز برای تحلیل دادهکاوی هزینهبر بوده و موانعی زیادی برای دسترسی به برخی از آنها وجود دارد. بعضا دادههای جمعآوریشده برای دادهکاوی نیازمند سیستمهایی با توان پردازشی بالا و هزینههای بالای راهاندازی است.
منابع برای مطالعه بیشتر
.Attewell, P., Monaghan, D., & Kwong, D. (2015). Data mining for the social sciences: An introduction. Univ of California Press
Zaki, M. J., Meira Jr, W., & Meira, W. (2014). Data mining and analysis: fundamental concepts and algorithms. Cambridge .University Press
[1] Supervised Learning
[2] Unsupervised Learning
[3] Reduced Form
[4] مدلسازی کاهشیافته صرفا به متغیرهای خروجی و ورودی توجه میکند، در حالی که نحوه تعامل دادههای ورودی با یکدیگر از اهمیت بیشتری برای ابزارهای ساختاری برخوردارند. برخلاف مدلسازی کاهشیافته، مدلسازی ساختاری به صورت تئوری به دنبال روابط بین متغیرها میگردد و اثرهای مستقیم و غیر مستقیم آنها را بر هم بررسی میکند.