مقدمه
دادهکاوی1 یکی از شاخههای مهم علم داده است که به کمک تواناییهای محاسباتی و الگوریتمهای هوشمند به تحلیل حجم وسیعی از دادهها میپردازد. این روش با هدف استخراج الگوهای پنهان، شناسایی روندها، و ایجاد مدلهای پیشبینی برای توصیف رفتار دادهها به کار گرفته میشود. دادهکاوی نه تنها در علوم فنی مانند مهندسی و ریاضیات کاربرد دارد، بلکه در حوزههای علوم انسانی و اجتماعی نیز نقش مهمی ایفا میکند. در این حوزهها، تحلیل دادههای بزرگ برای کشف روابط پیچیده و پنهان، اهمیت فزایندهای یافته است.
این حوزه از سه علم اصلی آمار، هوش مصنوعی و یادگیری ماشین بهره میبرد. روشهای آماری بهعنوان پایهگذار تحلیل دادهها، همچنان نقش مهمی در دادهکاوی دارند؛ اما با ظهور هوش مصنوعی و یادگیری ماشین، دادهکاوی توانسته است فراتر از محدودیتهای روشهای سنتی برود. این ابزارها قابلیت تحلیل دادههای پیچیدهتر و کشف روابط غیرمستقیم را فراهم میآورند. در این میان، یادگیری ماشین بهویژه در توسعه مدلهای پیشبینی و خوشهبندی بهطور گستردهای مورد استفاده قرار گرفته است.
با رشد دادهها در دنیای امروز، دادهکاوی به یکی از ابزارهای ضروری برای تحلیل و تفسیر اطلاعات تبدیل شده است. این فرآیند با ارائه بینشهای جدید، کمک میکند تا تصمیمگیریها دقیقتر و مبتنی بر دادههای واقعی صورت گیرد و در نهایت درک بهتری از رفتار سیستمها و کاربران حاصل شود.
ریشههای دادهکاوی: آمار، هوش مصنوعی و یادگیری ماشین
ریشۀ دادهکاوی به سه حوزۀ علم آمار، هوش مصنوعی و یادگیری ماشین مربوط میشود. مفاهیمی از آمار کلاسیک مانند تحلیل رگرسیونی، توزیع استاندارد، تحلیل ممیزی، تحلیل خوشهای و فواصل اطمینان بهمنظور مطالعه دادهها و روابط بین آنها به کار گرفته میشود و در روشها و ابزارهای دادهکاوی امروز نقش معناداری دارند. زمانی که تعداد متغیرها از تعداد مشاهدات بیشتر شود، برخلاف برخی روشهای دادهکاوی، مدلهای آماری مانند مدل رگرسیونی توانایی تحلیل آنها را از دست میدهند. روشهای مرسوم آماری با اینکه قابلیت پیشبینی را نیز فراهم میکنند، اما کاستیهای قابلتوجهی در تحلیل حجم وسیعی از دادهها دارند. حوزۀ دومی که دادهکاوی از آن بهره میگیرد، هوش مصنوعی است که از حدود سال 1980 پیادهسازی آن عملی شد. هوش مصنوعی بر اساس روشهای ابتکاری سعی دارد که فرآیندی شبیه به سیستم تعقل انسان را برای مسائل آماری به کار گیرد. یادگیری ماشین در دهههای 80 و 90 میلادی بهدلیل ارزانی بهکارگیری در مقایسه با هوش مصنوعی اوج بیشتری گرفت و میتوان آن را سیر تکاملی هوش مصنوعی در نظر گرفت. زیرا این رهیافت روشهای ابتکاری هوش مصنوعی را با تحلیلهای آماری ترکیب میکند.
دادهکاوی با بهرهگیری از هوش مصنوعی و یادگیری ماشین نهتنها بر محدودیتهای روشهای آماری کلاسیک فائق آمده است، بلکه برخی از محدودیتهای انسانی را نیز مرتفع ساخته است. انسان در مواجه شدن با انبوهی از دادهها، صدها متغیر و هزاران مشاهده قدرت تحلیل آماری آنها را بهصورت یکپارچه ندارد. همچنین انسان میتواند تخمینگرهای متفاوتی را با تحلیلهای آماری برآورد کند، اما هیچ انسانی توانایی برآورد تعداد بسیار زیادی از تخمینگرها را با استفاده از روشهای مرسوم ندارد. در این موارد دادهکاوی با تحلیل خودکار دادهها بهصورت یکپارچه کمکی شایان به انسان کرده است.
در یک تعریف جامع از دادهکاوی میتوان آن را فرآیند جستوجوی مدلهای گوناگون مختصر شده و مقادیر مشتق شده از یک مجموعه داده است. توجه به کلمه فرآیند در این تعریف مهم است. مجموعه دادهها صرفاً شامل انتخاب و بهکارگیری ابزار بر مبنای کامپیوتر، برای حل مسائل فعلی و به دست آوردن راهحلی بهصورت خودکار نیست. یک مطالعه دادهای استفاده از برخی فنهای تحلیلی را بررسی میکند و برای بررسی روش دیگر، تصمیمگیری میکند. سپس، از ابتدا شروع میکند و ابراز تحلیل داده دیگری را برای رسیدن به نتایج بهتر و متفاوت به کار میبرد. این فرآیند میتواند بارها و بارها تکرار شود. هر فن برای حل مسئله در جهت بررسی جنبههای متفاوت داده و اکتشاف روابط بین آنها استفاده میشود.
فرآیند دادهکاوی تصادفی نیست، بلکه در یک فرآیند تصمیمگیری بهدقت برنامهریزیشده و هدفمند انجام میشود. این فرآیند خودکار نیست و نیازمند دخالت پژوهشگر در هر مرحله از فرآیند است. حتی بعد از توسعۀ مدل، برای معرفی دادۀ جدید، غالبا به بهروزرسانی مبدل نیاز دارد. دادهکاوی بهطور خودکار راهحلها را کشف نخواهد کرد. نظارت بر کیفیت و ارزیابی نتایج توسط انسان پیدرپی لازم است. لازم است که پژوهشگر درک کامل از دادهها و روشهای تحلیل داشته باشد و دانش دربارۀ مسئله پژوهش و فهم تحلیل را ترکیب کند.
مزایای دادهکاوی در تحلیل دادههای بزرگ
دو هدف اساسی از دادهکاوی، شامل پیشبینی و توصیف است. پیشبینی به معنای بهکارگیری برخی از متغیرها در مجموعۀ دادهها برای درک مقادیر مجهول و نهایی است. توصیف بر یافتن الگوهایی که توسط انسان قابل تفسیر باشد تأکید دارد؛ بنابراین میتوان فعالیتهای دادهکاوی را در دو گروه طبقهبندی کرد. دادهکاوی پیشگویانه مدلی از سیستم توصیفشده توسط مجموعه دادههای مشخص را ارائه میدهد که میتوان از آن برای طبقهبندی، پیشبینی و ارزیابی دیگر اعمال مشابه استفاده کرد. دادهکاوی توصیفی که اطلاعات جدید و کلی را براساس مجموعه دادههای موجود ارائه میکند. به این ترتیب، شناختی از سیستمهای تجزیهوتحلیل شده توسط الگوها و روابط آشکار در مجموعه دادههای بزرگ را ارائه میدهد.
روشهای دادهکاوی: یادگیری نظارتشده و نظارتنشده
دو روش کلی در دادهکاوی عبارتاند از یادگیری نظارتشده2 و یادگیری نظارتنشده3. در یادگیری نظارتشده، ابتدا تعدادی داده ورودی همراه با دادههای خروجی نظیر آنها به عنوان نمونه داده میشود. این دادههای جفتشده نمونهای از یک الگوی صحیح را نشان میدهند که با ساختن تابعی از روی آنها و تعمیم آن تابع در مورد دادههای دیگر میتوان الگوی مورد نظر را در حجم وسیعی از دادهها پیدا کرد. اما در یادگیری نظارتنشده هیچ نمونه اولیهای داده نمیشود و در نتیجه الگوی موجود در دادهها باید در طول فرایند کشف شود. برای مثال در تحلیل خوشهای، تعدادی داده با ویژگیهای مشخص موجودند اما بر اساس این ویژگیها گروهبندی نشدهاند. وظیفه یادگیری ماشین کشف دادههای نزدیک به هم (بر اساس ویژگیهایشان) و گروهبندی آنهاست.
چالشها و محدودیتهای دادهکاوی
علیرغم تمامی مزایای ذکرشده، دادهکاوی معایبی نیز دارد. دادهکاوی روشی تقلیلیافته4 است. ابزار و روشهای کاهشیافته متفاوت با ابزار و روشهای ساختاری، به تعامل میان دادهها نمیپردازند و فقط مقادیر ورودی و خروجی برای آنها حائز اهمیت است. لذا در برخی موارد نمیتوان بر مبنای خروجی آنها تصمیمگیری کرد یا نتیجهای خاص گرفت. لازمۀ استفاده از این ابزارها، بهرهمندی از شواهدی در جهان واقعی و نیازمند شناسایی علتها توسط انسان است. همچنین جمعآوری دادههای مورد نیاز برای تحلیل دادهکاوی هزینهبر بوده و موانعی زیادی برای دسترسی به برخی از آنها وجود دارد. بعضا دادههای جمعآوریشده برای دادهکاوی نیازمند سیستمهایی با توان پردازشی بالا و هزینههای بالای راهاندازی است.
منابع برای مطالعه بیشتر
.Attewell, P., Monaghan, D., & Kwong, D. (2015). Data mining for the social sciences: An introduction. Univ of California Press
Zaki, M. J., Meira Jr, W., & Meira, W. (2014). Data mining and analysis: fundamental concepts and algorithms. Cambridge .University Press
پاورقی
- Data Mining ↩︎
- Supervised Learning ↩︎
- Unsupervised Learning ↩︎
- Reduced Form: مدلسازی تقلیل یافته صرفا به متغیرهای خروجی و ورودی توجه میکند، در حالی که نحوه تعامل دادههای ورودی با یکدیگر از اهمیت بیشتری برای ابزارهای ساختاری برخوردارند. برخلاف مدلسازی کاهشیافته، مدلسازی ساختاری به صورت تئوری به دنبال روابط بین متغیرها میگردد و اثرهای مستقیم و غیر مستقیم آنها را بر هم بررسی میکند. ↩︎