دست نوشته هایی درباره علم داده

طبقه بندی موضوعی

بایگانی

آخرین مطالب

زمانی که می خواهید مهارتهای خود را به عنوان یک دانشمند داده توسعه دهید قسمتهای اساسی آن را باید در اولویت قرار دهید: آمار، جبر خطی و برنامه نویسی

Statistical Inference

  • جهانی که در آن زندگی می کنیم یک جهان پیچیده، تصادفی و غیرمطمئن است که در عین حال یک ماشین بزرگ تولید داده  نیز هست.
  • هر کاری که در این جهان انجام می شود منجر به تولید داده می شود. از حرکت خون در رگها گرفته تا خرید کالا از فروشگاه
  • داده ها ارائه کننده ردپاهایی از فرایندها در جهان واقعی می باشند. اینکه کدام داده ها جمع آوری شود را، روش نمونه گیری و اهداف جمع کننده داده مشخص می کند.
  • وظیفه یک دانشمند داده تبدیل جهان به داده است و این یک فرایند ذهنی (subjective) است و نه یک فرایند عینی (objective)
  • بعد از جداکردن فرایند از جمع آوری داده می بینیم که دو منبع عدم قطعیت بوجود می آید یکی عدم قطعیت ناشی از خود فرایند و دیگری عدم قطعیت ناشی از روشهای جمع آوری داده. با داشتن همه این داده ها (خود داده و عدم قطعیتهایش) درست است که شما جهان را در قالب داده ذخیره کرده اید اما هنوز امکان فهم جهان و فرایند مربوطه را ندارید و باید این خیل عظیم داده را بسیار خلاصه تر و جامعتر کنید و اینجاست که نیازمند مدلهای ریاضی و توابعی روی داده خواهید شد که به آنها تخمینگرهای آماری می گویند.
  •  فرایند تبدیل جهان به داده و سپس  تبدیل داده به جهان موضوع آمار استباطی (statistical inference) است.
  • به صورت خلاصه آمار استنباطی رشته ای است که تمرکزش را روی خلق تئوریها و روشهایی قرار داده که به ما اجازه استخراج معنی از داده های تولید شده بوسیله فرایندهای تصادفی را می دهد.
  • در آمار کلاسیک بین جمعیت (population) و نمونه (sample) تفاوت است. جمعیت به کل اعضای یک جامعه اطلاق می شود و نمونه به تعدادی از اعضای این جامعه. برای نشان دادن تعداد جمعیت جامعه از N و برای نشان داده تعداد نمونه گرفته شده از جامعه از n استفاده می شود. در آمار استنباطی، نمونه برای این گرفته می شود که درباره جمعیت استنباطی صورت پذیرد. برای انتخاب نمونه از جامعه روشهای مختلفی وجود دارد که بایستی برای استنباط درست روش مناسب انتخاب شود تا نمونه گرفته شده اریب (bias)  نباشد و واقعا نماینده جامعه باشد.
  • سوالی که ممکن است مطرح شود اینست که امروز با وجود تکنولوژی های Big Data مانند Hadoop که می توانیم همه رکوردها را ذخیره و پردازش کنیم آیا بازهم نمونه گیری مطرح می شود؟ جواب: بله نمونه گیری بسیاری از مشکلات مهندسی ناشی از پردازش همه داده ها را برطرف می کند. در گوگل همیشه به جای پردازش کل داده ها نمونه گیری انجام شود. واقعا نیازی به نگهداری همه داده ها نیست (البته اگر هدفتان استنتاج باشد). از طرف دیگر به عنوان مثال اگر به همه داده های گوگل و توییتر هم دسترسی داشته باشید با پردازش همه آنها باز هم نمی توان نتیجه گیری کلی روی جامعه کرد و باز هم احتمال اریب بودن هست.
  • در آمار معمولا رابطه بین جمعیت و نمونه بوسیله یک فرایند ریاضی مدل می شود. اگر همه ایمیل ها را به عنوان جمعیت درنظر بگیرید و از میان آنها یک نمونه به صورت تصادفی انتخاب کنید و سپس فرایند نمونه گیری شما به جای این نمونه یک نمونه خاص بسازد و مجددا فرایند نمونه گیری را روی جمعیت انجام دهید منجر به گرفتن یک نمونه متفاوت می شوذ. عدم قطعیت ایجاد شده بوسیله چنین فرایند نمونه گیری  را توزیع نمونه گیری (sampling distribution) می نامند.
  • در مدلسازی همیشه بین دقت و سادگی باید تعادلی ایجاد کنید. ابتدا مدل را به صورت ساده طراحی کنید و به مرور به دقت آن بیافزایید. معمولا یک مدل ساده که بوجود آوردن آن چند ساعت طول می کشد 90% آنچه را می خواهید نشان می دهد و تلاش روی دقیق کردن آن که ممکن است ماهها به طول بیانجامد ان را به 92% می رساند. در این کتاب مدلهای بالقوه آماری به شما نشان داده خواهند شد. بلوکهای سازنده این مدلها توزیع های احتمال (probability distributions) هستند.
  • توزیعهای احتمال اساس مدلهای اماری هستند. زمانی که وارد مباحث رگرسیون خطی و نایو بیز شوید آن را در عمل خواهید دید.
  •  Fitting کردن یک مدن یعنی برآورد کردن پارامترهای ان با استفاده از داده های مشاهده شده.یعنی از داده های مشاهده شده به عنوان شاهدی برای تخمین فرایند ریاضی در جهان واقعی که منجر به تولید این داده ها شده است استفاده می کنیم.
  • برای Fitting معمولا از روشها و الگوریتمهای بهینه سازی مانند  maximum likelihood estimation استفاده می شود.
  • در حقیقت زمانی که پارامترها را تخمین می زنید به آنها تخمینگر (estimator) گفته می شود چون توابعی روی داده های مشاهده شده هستند.
علی انصاری
۱۱ دی ۹۳ ، ۱۲:۳۰ موافقین ۱ مخالفین ۰ ۰ نظر

Datafication

در نسخه ماه ژوئن 2013 مجله Foreign Affairs مقاله ای با نام "The Raise of Big Data" چاپ شد که در آن مفهوم datafication بررسی شد و به عنوان مثال مطرح شد که چگونه می توان با استفاده از likes میزان دوستی را کمی کرد.

در این مقاله datafication به عنوان فرایند دریافت همه ابعاد زندگی و تبدیل آن به داده تعریف شد به عنوان مثال linkedin شبکه های کاری و حرفه ای را datafy کرده یا twitter افکار سرگردان را datafy کرده است.

datafication مفهوم جالبی است و اهمیت آن در این است که انسان ها دوست دارند داده های خود را به اشتراک بگذارند.

Data Science چیست؟ آیا یک مفهوم جدید است یا همان آمار است که برند جدیدی به خود گرفته است?

نظر آقای Drew Convey درباره Data Science

از نظر آقای Conway مهارتهای اصلی در این رشته عبارتند از:

  1. Statistics
  2. Data munging (parsing, scraping, formatting)
  3. visualization
دانشمند داده درست است که در حال حاضر به عنوان یک رشته دانشگاهی شاید مطرح نباشد اما در صنعت جایگاهی با این عنوان دارد. در شرح توانمندیهای این پست، عناوین زیر آمده است:
  1. Computer Science
  2. Statistics
  3. Data Visualization
  4. extensive domain expertise
و از آنجا که هیچ کس نمی تواند در همه این زمینه ها استاد باشد باید یک تیم در سازمان بدین منظور ایجاد شود.

بیل کلولند(Bill Cleveland) در سال 2001 در مقاله ای (Data Science: An Action Plan for expanding the technical areas of the field of statistics) علم داده را توسعه حوزه های تکنیکی علم آمار معرفی کرده است.
علی انصاری
۱۱ دی ۹۳ ، ۱۲:۲۹ موافقین ۱ مخالفین ۰ ۰ نظر

ان شالله از امروز اگه خدا توفیق بده می خوام درباره Data Science بنویسم. خلاصه ترجمه کتابی با عنوان Doing Data Science که در حقیقت یک دوره درسی در دانشگاه کلمبیا است که توسط خانم راشل اسکات (یکی از دانشمندان گوگل) طراحی شده. (پاییز 2014 اولین دوره این کلاس برگزار شده)

مطالب عنوان شدن در این وبلاگ برداشتهای شخصی بنده بوده و قابل استناد نمی باشد

خانم اسکات در مقدمه این کتاب می نویسد که 3 دلیل برای طراحی این دوره داشته:
  1. دادن آموزش های آولیه به دانشجویان درباره اینکه یک دانشمند داده در صنعت چه کارهایی انجام می دهد و چه مهارتهایی نیاز دارد
  2. از انجایی که Data Science پتانسیل تبدیل شدن به یک رشته دانشگاهی تاثیرگزار را دارد، این دوره فرصتی را برای مشروعیت بخشیدن دانشگاهی به ان می داد
  3. دانشمندان داده در صنعت معتقدند که امکان تدریس این علم در دانشگاه وجود ندارد و من می خواستم این موضوع را به چالش بکشم
در این کتاب، وضعیت فعلی DATA Science در صنعت تشریح شده و این که این علم به عنوان یک علم دانشگاهی چه چیزی می تواند باشد نیز تجویز شده است. انتظار نداشته باشید که این کتاب یک کتاب دانشگاهی درباره Machine Learning باشد. بلکه قسمتهای مختلف این علم از دیدهای مختلف بررسی شده است
فصل های کتاب بر طبق همان چیزی که در دوره آموزش داده شده تنظیم شده است.
در فصل 1، Data Science معرفی شده.
در فصل 2 و 3 به بررسی مدلهای آماری و الگورتمهای یادگیری ماشین به عنوان مبنایی برای بقیه کتاب پرداخته شده است
در فصلهای 4، 5، 6 و 8 مثالهایی از مدلها و الگوریتهای آموخته شده در فصل 2 و 3 در عمل ارائه شده است
در فصل 7 می آموزیم که چگونه از داده، معنی استخراج کنیم
در فصلهای 9 و 10 به Data Visualization و Social Networks  پرداخته ایم. دو مبحثی که قبلا جز مباحث اکادمیک نبود اما امروزه در دوره های آکادمیک وارد شده است
در فصلهای 11 و 12 از Prediction به causality سوییچ می کنیم
فصلهای 13 و 14 به Data Preparation and Engineering می پردازد
فصل 15 و 16 به بیان نظرات دانشجویان درباره دوره و آِینده Data Science می پردازد.
علی انصاری
۱۱ دی ۹۳ ، ۱۲:۲۸ موافقین ۱ مخالفین ۰ ۱ نظر