بایگانی برچسب: s

وضعیت مهاجرت در داده های نظرسنجی جادی

چند وقت پیش، موقع برگشت از شرکت با یکی از همکاران گفتگویی داشتیم. ایشان درباره داده های نظرسنجی جادی که هر سال به صورت آنلاین و در قالب یک پرسشنامه برگزار می شود اطلاعاتی به من دادند. این اطلاعات، با آنچه از سایر منابع می دانستم در تضاد بود. از این رو سعی کردم داده های این پرسشنامه را تحلیل کنم. بخشی از نتایج این تحلیل که در بررسی های مشابه مثل «بهداد بلاگ»، یا «تحلیل وبسایت جادی» موجود نبود مربوط به نرخ مهاجرت است. در ادامه تحلیل خود در این رابطه را به صورت مجموعه ای پرسش و پاسخ آورده ام.

۱. برای تحلیل از چه داده هایی استفاده شده است؟ برای تحلیل از داده های سال ۹۷ استفاده کرده ام که با استفاده از این آدرس می توانید آنها را دانلود کنید

۲. داده های مورد استفاده در تحلیل چند متغیر (ستون) و چند مشاهده (سطر) دارند؟ داده های مورد استفاده در تحلیل ۴۱ ستون (متغیر) و ۴۴۸۴ سطر دارند (بدون احتساب سطر مربوط به سرآیند). تعداد مشاهده های موجود در این فایل با «بلاگ بهداد» برابر است. اما در «تحلیل وبسایت جادی» این عدد ۲۹۵۷ ذکر شده (این ناسازگاری باید توسط منبع ارائه دهنده داده ها که وبسایت جادی است بررسی شود)

۳. آیا این داده ها سوگیری، یا بایاس (Bias) خاصی دارند؟ بله. مهمترین این سوگیری ها، اصطلاحا سوگیری در نمونه برداری (Sampling bias) نام دارد. یعنی برخی از افراد جامعه مقصد درصد مشارکت کمتری نسبت به جامعه واقعی دارند. از آنجا که جامعه آماری شرکت کننده گان در این پرسشنامه اکثرا از کاربران توییتر و خواننده گان وبلاگ جادی هستند، دچار یک سوگیری در نمونه گیری هستند. البته این سوگیری در تحقیقات مربوط به علوم اجتماعی بسیار رایج است

۴. سوگیری های موجود در داده ها چگونه خود را نشان می دهند؟ برای مثال از میان ۴۴۸۴ شرکت کننده تنها ۴۱۴ نفر از شرکت کننده گان (۹.۲۳٪) را خانم ها تشکیل می دهند. به علاوه اکثر شرکت کننده گان نسبتا کم سن و سال هستند.

۵. از هر شهر چند شرکت کننده وجود دارد؟ داده های مربوط به این قسمت با استفاده از فیلد «خودتون رو متعلق به کدوم استان می دونید؟» به دست آمده اند.

۶. شرکت کننده گان در کدام شهرها کار می کنند؟ نمودار زیر با استفاده از اطلاعات مربوط به فیلد «استان محل کار» رسم شده است

۷. مبداء و مقصد مهاجرت برنامه نویسان ایرانی چه شهرهایی است؟ در زمان مشاهده گراف زیر این موارد را مد نظر قرار دهید (برای بزرگ کردن تصویر روی آن کلیک کنید):

  •  در گراف زیر اگر تعداد مهاجران از یک شهر به شهر دیگر بزرگتر یا مساوی ۲۰ نفر بوده باشد یک یال بین دو شهر رسم شده است. در نتیجه مهاجرت های کوچکتر رسم نشده اند
  • شهر مقصد با نوک پیکان مشخص شده است
  • تعداد مهاجران روی هر یال نوشته شده است
  • حلقه (یالی از یک شهر به همان شهر نشان دهنده یکسان بودن مبداء و مقصد ذکر شده در پرسشنامه، یا عدم مهاجرت است)

گراف مهاجرت

اطلاعات بسیار جالبی در این گراف قابل مشاهده است:

  • تقریبا می توان گفت مقصد نهایی تمامی مهاجرت های داخلی تهران است. البته اگر در شهرهای بزرگی چون اصفهان، یا خراسان رضوی باشید محتملا به تهران مهاجرت نخواهید کرد. اما، اگر در سایر شهرها باشید وضعیت متفاوت خواهد بود
  • اگر ساکن تهران باشید و قصد مهاجرت داشته باشید تنها مقصدتان کشورهای خارجی، یا دورکاری است
  • برخی شهر ها هم هستند که مهاجرتی زیر ۲۰ نفر دارند، اما تعداد شرکت کننده گان آنها بزرگتر یا مساوی ۲۰ است. این شهرها در پایین گراف در قالب مجموعه ای جدا افتاده (Isolates) نشان داده شده اند

آنچه در این داده ها دیده می شود ناخوشایند است. خوب بود اگر برنامه نویسان و کارکنان آی تی مقصدی به جز تهران در مهاجرت های داخلی داشتند…

۸. در داده های موجود به طور کلی احتمال مهاجرت چقدر است؟ به طور کلی، اگر کسانی که شهر مبداء آنها مخالف شهر محل کارشان است را مهاجر فرض کنیم، و تعداد آنها را به تعداد کل شرکت کننده گان تقسیم کنیم به عدد ۰.۲۸۲ خواهیم رسید. به عبارت دیگر افراد به احتمال ۲۸ درصد برای کار مهاجرت می کنند.

البته میزان صحت این احتمال با اعتبار داده های پرسشنامه مستقیما در ارتباط است.

۹. احتمال مهاجرت از هر شهر چقدر است؟ احتمال مهاجرت از شهرهایی که بیش از ۲۰ مهاجر داشته اند در جدول زیر آمده است:

شهر مبدا شهر مقصد تعداد مهاجر احتمال مهاجرت
البرز تهران ۸۸ ۰.۵۸۳
مرکزی تهران ۲۷ ۰.۵۴۰
لرستان تهران ۳۲ ۰.۵۰۰
همدان تهران ۴۳ ۰.۴۶۷
کرمانشاه تهران ۲۵ ۰.۴۵۵
زنجان تهران ۲۴ ۰.۴۴۴
مازندران تهران ۶۲ ۰.۴۰۸
کردستان تهران ۳۰ ۰.۳۶۶
کرمان تهران ۳۱ ۰.۳۶۵
آذربایجان غربی تهران ۳۱ ۰.۳۵۲
خوزستان تهران ۴۸ ۰.۳۳۶
گیلان تهران ۴۳ ۰.۳۱۲
یزد تهران ۲۴ ۰.۲۶۷
فارس تهران ۵۱ ۰.۲۴۱
آذربایجان شرقی تهران ۳۵ ۰.۲۴۸
اصفهان تهران ۷۷ ۰.۲۳۶
قم تهران ۲۰ ۰.۲۱۷
خراسان رضوی تهران ۵۵ ۰.۱۵۳
تهران ریموت-خارج کشور ۲۲ ۰.۰۱۴

همان طور که در جدول فوق هم قابل مشاهده است احتمال مهاجرت از شهرهای بزرگ مثل خراسان و اصفهان به تهران یا از تهران به خارج کشور (یا دورکاری) نسبتا اندک است.

البته می توان رابطه بین داده های مربوط به مهاجرت برنامه نویسان را با بسیاری از متغیرهای دیگر موجود در پرسشنامه بررسی کرد. برای مثال:

  •  آیا سن رابطه ای با مهاجرت دارد؟
  • آیا رابطه ای میان میزان تخصص و مهاجرت وجود دارد؟
  • جنسیت در تصمیم بر مهاجرت تاثیری دارد؟

و بسیاری موارد دیگر. متاسفانه به خاطر سوگیری داده ها نمی توان برخی از این سوال ها را پاسخ داد. برای مثال به علت پایین بودن تعداد خانم ها نمی توان به سوال رابطه بین جنسیت و مهاجرت پاسخ داد. پاسخ به سایر سوالات هم به علت قالب داده ها با دشواری هایی همراه است که به زمان زیادی نیاز دارد.

در انتها امیدوارم این تحلیل با همه کاستی هایش مفید واقع شود، و برای برخی سوالات موجود پاسخ مناسبی ارائه دهد.

برای آگاهی از پست های بعدی می توانید در کانال تلگرام وبلاگ عضو شوید.
برای عضویت در کانال وبلاگ اینجا کلیک کنید

NNT چیست؟

 برای آگاهی از اینکه پزشکی مدرن چقدر می تواند به بیماران کمک کند راهی وجود دارد. این راه، یک مفهوم آماری بسیار ساده به نام «عدد مورد نیاز برای درمان» (Number Needed to Treat) یا به اختصار NNT است. NNT معیاری برای میزان تاثیر دارو، یا درمان ارائه می دهد. این معیار، تعداد بیمارانی که باید درمان شوند تا، یک نفر تحت تاثیر قرار گیرد را تخمین می زند. NNT یک مفهوم آماری، اما شهودی است. همان طور که می دانید، همه افراد از مداخله پزشک یا استفاده از دارو سود نمی برند – برخی درمان می شوند، برخی هیچ نتیجه ای نمی گیرند، و برخی دیگر به علت درمان دچار آسیب می شوند. NNT تعداد افراد موجود در هر گروه را مشخص می کند.

برای مثال، درمانی خیالی برای حمله قلبی به نام «ضد-حمله» را در نظر بگیرید. برای بررسی میزان تاثیر این درمان، بیماران را به دو گروه تقسیم می کنیم «گروه درمان»، و «گروه شبه دارو». «گروه درمان» را در معرض «ضد-حمله» قرار می دهیم، و به اعضای «گروه شبه دارو» هیچ دارویی نمی دهیم. فرض کنید ۷۵ درصد بیماران «گروه درمان» که «ضد-حمله» را استفاده می کنند زنده مانده، و ۲۵ درصد آنها میمیرند. در گروه «شبه دارو» ۷۵ درصد بیماران میمیرند، و ۲۵ درصد آنها زنده می مانند. همان طور که مشاهده می کنید داروی «ضد-حمله» بسیار موثر است و می تواند نرخ مرگ و میر را به میزان قابل توجهی کاهش دهد. با این حال، ۲۵ درصد بیماران گروه «شبه دارو» که هیچ دارویی دریافت نمی کنند زنده مانده، و ۲۵ درصد اعضای «گروه درمان» هم با وجود استفاده از دارو میمیرند. به طور کلی، درمان «ضد-حمله» هیچ تاثیری بر ۵۰ درصد بیماران ندارد. در مقابل ۵۰ درصد بیمارانی که از این راه درمانی استفاده می کنند هم بهبود می یابند.
نکته قابل توجه، این است که در اکثر داروها و درمان ها، نمی دانیم آیا درمان به افراد کمک کرده، هیچ تاثیری بر آنها نداشته، یا باعث آسیب به آنها شده است. اگر بخواهیم حساب کنیم چند نفر باید تحت درمان «ضد-حمله» قرار گیرند تا یک نفر درمان شود این عدد ۲ نفر است (زیرا این دارو تنها ۵۰ درصد بیماران را بهبود می دهد). به عبارت دیگر، NNT درمان «ضد-حمله» برابر با ۲ است.
توجه داشته باشید در بسیاری از درمان ها نرخ میزان تاثیر درمان بسیار کمتر از ۵۰ درصد است. برای مثال، ممکن است NNT درمانی خاص ۵۰ باشد. یعنی تنها دو درصد بیمارانی که تحت این درمان قرار میگیرند از آن بهره می برند. در این حالت برای درمان یک نفر ۵۰ بیمار باید تحت درمان قرار بگیرند. مسلما، از میان این ۵۰ بیمار عده ای دچار عوارض آن خواهند شد.از این رو، بهتر است موقع استفاده از دارو، یا درمانی خاص NNT، و عوارض آن را مد نظر قرار دهید.

منبع: http://www.thennt.com/thennt-explained

برای آگاهی از پست های بعدی می توانید در کانال تلگرام وبلاگ عضو شوید.
برای عضویت در کانال وبلاگ اینجا کلیک کنید

بازگشت به میانگین

regression-reversion-to-the-mean

حتما برای شما هم پیش آمده که اتفاقات یا تجربیات بسیار خوب یا بسیار بدی  (در هر زمینه ای) را تجربه کرده باشید و بر اساس آنها فکر کنید سایر تجربیات هم به همین صورت خیلی بد (نا امیدی) یا خیلی خوب (امیدواری بیش از حد) خواهند بود؛ اما تجربیات یا اتفاقات نسبت به قبل عادی تر شده اند! به این پدیده اصطلاحا بازگشت به میانگین (Regression to mean) می گویند. در واقع پس از یک اتفاق تصادفی خیلی خوب یا خیلی بد اتفاقی که رخ می دهد عادی تر است!
این مفهوم بسیار جالب آماری تبعات بسیاری دارد. برای مثال بازی های بسیار خوب و استثنایی برخی بازیکنان بسکتبال یا فوتبال در یک فصل در فصل های بعد ادامه پیدا نمی کند و به حالت میانگین یا عادی خود نزدیک تر می شود. بسیاری چنین اتفاقاتی را با خرافه شرح می دهند در حالیکه این قانون مدتها است در آمار و طراحی آزمون های تجربی مورد استفاده قرار می گیرد! برای دوستانی که با ریاضیات و آمار آشنایی دارند تصویر زیر گویای قضیه است:

regression-to-the-mean-proof

توجه داشته باشید در توضیحات فوق سعی شده مفهوم به ساده ترین شکل ممکن ارائه شود.

برای آگاهی از پست های بعدی می توانید در کانال تلگرام وبلاگ عضو شوید. برای عضویت اینجا کلیک کنید.

تجزیه و تحلیل پرفروش ترین برنامه های کافه بازار

در این پست قصد دارم از نقطه نظر آماری به بررسی پرفروش ترین برنامه های کافه بازار بپردازم. داده های استفاده شده در این پست مربوط به لیست پر فروش ترین برنامه های کافه بازار در تاریخ شانزدهم مهرماه ۱۳۹۴ است. این داده ها بوسیله یک Web Scrapper بسیار ساده که با زبان پایتون نوشته ام  جمع آوری شده. می توانید داده های خام را در قالب یک فایل اکسل از اینجا دانلود کنید.

در تجزیه و تحلیل های انجام شده درآمد یک برنامه برابر با تعداد نصب های های فعال ضرب در قیمت آن تعریف شده است.

توجه: برای مشاهده تصویر کامل نمودارها روی تصاویر کلیک کنید.

در ادامه به سوالاتی که در آن زمان برای خودم مطرح شده بود می پردازم:

۱- بازار چند برنامه پر فروش دارد؟

پاسخ: در زمان بررسی کافه بازار ۵۰ برنامه پرفروش در لیست برترین های فروشی خود داشت. نام نرم افزار ها به همراه دسته های آنها در فایل ضمیمه شده موجود است.

۲- در لیست پرفروش ترین ها چه تعداد برنامه از هر گروه وجود دارد؟

پاسخ: جواب این سوال را می توانید در Pareto Chart زیر به وضوح مشاهده کنید. در این نمودار ستون افقی نام دسته ها و ستون عمودی تعداد برنامه های موجود در آن دسته را نشان می دهد.

تعداد برنامه های پرفروش موجود در هر دسته در لیست پرفروش ترین های کافه بازار

همان طور که مشاهده می کنید بیشترین تعداد برنامه ها در دسته کاربردی قرار دارند. در جدول زیر می توانید فراوانی نسبی (Relative Frequency) برنامه های موجود در هر دسته را مشاهده کنید:

تعداد برنامه های موجود در هر دسته

۳- میانگین قیمت برنامه های موجود در هر دسته چقدر است؟

پاسخ این سوال را می توانید در جدول و نمودار زیر مشاهده کنید (قیمت ها از بزرگترین به کوچکترین مرتب شده اند). همان طور که مشاهده می کنید میانگین قیمت برنامه های موجود در دسته صوت و موسیقی از همه بالاتر است.

میانگین قیمت برنامه های موجود در هر دسته

میانگین قیمت برنامه های موجود در هر دسته

۴- در میان پر فروش ترین ها به طور کلی میانگین قیمت چقدر است؟

به طور کلی میانگین قیمت برنامه در میان پر فروش ترین ها ۱۵۱۹ تومان است.

۵- درآمد کل کافه بازار از پرفروش ترین ها چقدر بوده؟ سود کافه بازار در این میان چقدر بوده است؟

در کل کافه بازار تا تاریخ مذکور از پرفروش ترین های خود مبلغ  یک میلیارد و هفتصد و پنجاه و سه میلیون و صد و پنج هزار تومان در آمد داشته است. در این میان سود کافه بازار که ۳۰ درصد این مبلغ است برابر با پانصد و بیست و پنج میلیون و نهصد و سی و یک هزار و پانصد تومان بوده است.

۶- مجموع در آمد برنامه های موجود در هر دسته چقدر بوده است؟ پر در آمد ترین دسته ها به ترتیب کدامند؟

پاسخ این سوال را می توانید در نمودار و جدول زیر ملاحظه کنید (نتایج بر اساس بیشترین درآمد مرتب شده اند).

EarningPerCatParetoChart

EarningPerCatTable

۷- توزیع درآمد برنامه ها چگونه است؟
برای پاسخ به این سوال باید مواردی مانند پردرآمد ترین برنامه (Max)، کم درآمد ترین برنامه (Min) و رنج درآمد برنامه ها (Range) را به دست آوریم. اطلاعات مربوط به پردرآمدترین و کم درآمد ترین برنامه ها را برای استفاده شما آورده ام:

  • پردرآمد ترین برنامه به نام قانون با صد و پنجاه و نه میلیون و نهصد و هشتاد هزار تومان
  • کم درآمد ترین برنامه به نام سوت بزن عکس بگیر با چهار میلیون و نهصد و نود و پنج هزار تومان. با به دست آوردن این مقدار می توان گفت بازار برنامه هایی که درآمدی برابر یا بیش از این مقدار دارند را در دسته پرفروش ها قرار می دهد.

توزیع درآمد برنامه ها در هیستوگرام  زیر آمده است:

EarningHistogram

نتیجه گیری

همان طور که مشاهده می کنید درآمد اکثر نرم افزار ها بین کمترین میزان (Min) تا حدودا پانزده میلیون تومان است. این در حالی است که ما در حال بررسی لیست پرفروش ترین نرم افزارهای کافه بازار هستیم. پانزده میلیون تومان حدودا، صدک ۳۸ درآمدها است؛ یعنی: ۳۸ درصد برنامه های پرفروش درآمدی کمتر یا برابر با این مقدار دارند. در این میان درآمد برنامه قانون که بیشترین میزان را به خود اختصاص داده است، حتی در میان پرفروش ترین ها، یک داده پَرت به شمار می رود. درآمد نرم افزار قانون صدک ۱۰۰ ام درآمدها است؛ یعنی بزرگترین میزان درآمد. در میان پرفروش ترین برنامه ها احتمال به دست آوردن درآمدی معادل درآمد نرم افزار قانون برابر با ۰.۰۲ است. این عدد در میان کل برنامه ها تقریبا صفر خواهد بود.

در انتها توجه داشته باشید که برای نتیجه گیری های دقیق باید داده های بیشتری جمع آوری شود و بررسی های دقیق تری انجام شود. هدف من از نوشتن این مقاله بیان اهمیت استفاده از داده ها برای تصمیم گیری های تجاری و قدرت و ظرافت اعداد در بیان حقایق است.

اما چرا نرم افزاری مثل قانون چنین درآمدی را به خود اختصاص داده؟ آیا این میزان فروش به معنای علاقه جامعه ما به قانون است یا دلیل دیگری دارد؟ نظر شما چیست؟

برای آگاهی از پست های بعدی می توانید در کانال تلگرام وبلاگ عضو شوید.
برای عضویت در کانال وبلاگ اینجا کلیک کنید