دسته بندی :: بازاریابی، برندینگ، تحقیقات بازار، ترید مارکتینگ

در پستهای قبلی در مورد تفاوت میان طبقه بندی و خوشه بندی بحث کردیم. در مورد سوال این پست نیز اولین پاسخی که می توان داد این است که الگوریتم K نزدیکترین همسایگی (KNN) یک الگوریتم طبقه بندی و الگوریتم k-means یک الگوریتم خوشه بندی است. منطق الگوریتم KNN به زبان ساده این است که اگر شما شبیه به همسایگانتان باشید، آنگاه شما یکی از آنها خواهید بود. یا اگر سیب شباهت بیشتری به موز، پرتقال و ملون (میوه) نسبت به یک میمون، گربه یا موش (حیوان) دارد، آنگاه به احتمال قوی سیب یک میوه است. در ادامه مثالی آورده شده است. فرض کنید سه کلاس داریم و هدف پیدا کردن کلاس مناسب یرای مثال ناشناخته x_jاست. بعبارت دیگر می خواهیم بدانیم برای مثال ناشناخته x_j ، کدام برچسب کلاس مناسبتر است. در این مورد از فاصله اقلیدسی و k=5 همسایه استفاده کرده ایم. از میان 5 تا از نزدیکترین همسایه ها، 4 تا متعلق به w₁ و یکی متعلق بهw₃ است بنابراین x_j به w₁ ، کلاس غالب، تخصیص داده خواهد شد.

در مورد K-means هم که شما باید با داشتن تعدادی داده، آنها را در K خوشه، خوشه بندی کنید. روش K-means متعلق به خانواده الگوریتمهای مرکز متحرک است به این معنا که مرکز خوشه در هر تکرار به آهستگی به سمت مینیمم کردن تابع هدف پیشروی می کند. در شکل زیر شما با یک حدس اولیه برای میانگینهای خوشه های m₁ و m₂ شروع می کنید و از این میانگینها برای گروه بندی هدف هایتان استفاده می کنید، سپس میانگینها را بروز می کنید و دوباره گروه بندی می کنید و این کار را تا جایی ادامه می دهید که میانگینهای m₁ و m₂ تغییر یا حرکت نکنند یا اینکه عملیات تکرار را تا دستیابی به یک حد آستانه (بعنوان مثال تعداد تکرارها) ادامه می دهید.

در پستهای قبلی با یادگیری با نظارت و بدون نظارت آشنا شدیم.

خوشه بندی یا Clustering از روشهای داده کاوی است که از یادگیری بدون نظارت استفاده می کند. در واقع خوشه بندی بدون داشتن یک مثال آموزشی و بدون هر گونه ناظر سعی در پیدا کردن شباهتهای موجود در داده ها دارد به گونه ای که موارد شبیه بهم در یک خوشه قرار می گیرند و موارد داخل دو خوشه متفاوت با هم تفاوت فاحشی دارند. شباهت بین دو مورد بر اساس فاصله اقلیدسی بین آن دو سنجیده می شود به گونه ای که هر چه فاصله بین دو شی کمتر باشد، شباهت بین دو مورد بیشتر و هر چه فاصله بین دو مورد از هم بیشتر باشد، شباهت کمتر است.

مثال برای خوشه بندی، در نظر گرفتن جاندارن در دو خوشه پستاندار و خزنده است. در خوشه پستانداران، انسان، پلنگ، فیل، و غیره قرار می گیرند. از سوی دیگر، خوشه خزنده شامل مار، مارمولک، اژدها کامودو و غیره می شود.

طبقه بندی، فرایند دسته بندی داده ها به کمک برچسب کلاس هاست.در طبقه بندی یا Classification نیاز به داده های آموزشی هست در حالی که در خوشه بندی نیاز به یادگیری و داده های آموزشی نیست.

به عنوان مثالی از طبقه بندی، فرم درخواست وام را در بانکها در نظر بگیرید. مشتریان تکمیل کننده این فرمها را می توان طبق سن و دستمزدشان، به عنوان مشتری بدون ریسک یا پرریسک دسته بندی نمود. به این نوع فعالیت، یادگیری تحت نظارت گفته می شود. مدل ساخته شده می تواند برای طبقه بندی داده های جدید مورد استفاده قرار گیرد. گام یادگیری می تواند با استفاده از مجموعه داده های آموزشی تعریف شده، اجرا شود. مدل تولیدی می تواند در قالب یک درخت تصمیم گیری یا مجموعه ای از قوانین باشد.

مرتضی علیاری

1397/1/27

بازاریابی، برندینگ، تحقیقات بازار، ترید مارکتینگ

آموزش، مشاوره و اجرای پروژه های مارکتینگ

۲ مطلب با کلمه‌ی کلیدی «دسته بندی» ثبت شده است

تفاوت الگوریتمهای k نزدیکترین همسایگی و K-means

تفاوت خوشه بندی و طبقه بندی در داده کاوی

در این بلاگ سعی کرده ام تجربیات 15 ساله خود را در زمینه های مارکتینگ و برندینگ، تحقیقات بازار و ترید مارکتینگ در اختیار شما قرار دهم.