Difference Between Big Data and Machine Learning (Simplified)

البوست ده هو بغرض توضيح العلاقات المتشابكة بين Machine Learning and Big Data
وازاى ممكن حد يبدأ يتعلم ال Machine Learning 
والعلوم القائمة لعيها 
وده بسبب انى ملاحظ ان الموضوع متشابك وفى خلط كبير على الناس…
طيب تعالوا نبسط الموضوع فى الاول نعتبر ان مفيش حاجة اسمها Big data
احنا فى الاساس شغالين على البيانات وتنظيمها وتحليلها ومن ثمّ اننا نحاول نطلع معلومات وتوقعات من البيانات تمام؟
دايما كان اساتذتنا فى الكلية بيقولوا ايه لو عايز تلغبط الناس ومش عايز توضح الحقيقة اوعى ان تضع مصطلح وتضع له تعريف واضح حتى لا يفهمه الناس ببساطة ومن هنا يمكن لكل فرد ان يضع ما يريده فى هذا العلم…
طيب حتى لا يختلط الامر فى اكتر من معنى ومصطلح بيُسمى بيهم ال Machine Learning

1- Statistical Learning وده اغلب الناس اللى خلفيتهم رياضية وبيشتغلوا فى المجال على الداتا بيسموه كده وغالبية علماء المجال القدام بيسموه كده
2-Machine Learning وده غالبية الناس اللى خلفيتهم هندسية بيطلقوا عليه المصطلح ده 
3- Pattern Recognition وده المصطلح اللى بيسمى بيه الناس بتوع علوم الحاسب 
التسمية ده كان احد الاساتذة شرحها وفصلها فى محاضرة بس مش وقتها هنا بس حبيت اوضحها فى الاول عشان لا يختلط الامر…
التعريف اللى موجود على ويكبيديا مٌعبر جدا وواضح 
Machine learning: Explores the study and construction of algorithms that can learn from and make predictions on data. Such algorithms operate by building a model from example inputs in order to make data-driven predictions or decisions, rather than following strictly static program instructions.

طيب نُكمل الموضوع
اى حد بيجيلوا بيانات بيدأ يظبطها وبعد كده يعرضها بصورة توضيحية وبعد كده بيبقى قدامنا طريفين لا ثالث لهما Supervised Learning and Un Supervised Learning 
هحاول ابقى اشرحهم بعدين تفصيليا 
المهم اننا داخل الطرق ده بيبقى عندنا عدة اهداف واضحة بيختلفوا على حسب طبيعة المشكلة اللى بنواجهها 
1- بناء دالة لما ندخل ليها البيانات من غير لما نعرف اى الاقسام تنتمى اليها الدالة ده بتقولنا لوحدها ده تنتنمى لكذا او لكذا مثال
عندنا آشعة بتقول هل فى ربنا يعافينا جميعاً سرطان فى الاشعة ده ولا لأ 
ايه الخطواط بأختصار ؟
*بناخد جزء من الاشعة ده بنكون عارفين مسبقا هى فيها ولا لأ ونعمل دالة وبعد كده لما ندخل آشعة جديدة الدالة لوحدها تقولنا الاشعة فيها سرطان ولا لأ يبقى القرار هنا تجاه حاجتين فيها ولا لأ Yes or No
وده بيسمى Classification 
Classification is a general process related to categorization,
2- اننا يكون عندنا بيانات برده بس المره ده عايزين نستنتج بعض المتغيرات فى الدالة ده اعتمادا على قيم وقياسات عشوائية عشان نقدر نبنى دالة وفيه كلام كتير هو مش بناء فقط هو ازاى نحليل الانحدار فى الداتا وبناء عليه نقدر بعدين نستنتج الى “الى اى مدى ” البيانات ده تنتمى الى القسم ده بمعنى لو عندى بيانات مجهولة بنقول بنسبة كام فى المية البيانات ده تنتمى الى القسم ده يعنى فيها احتمالات واحصاء مش قرار yes or no وهو ما يسمى Regression طبعا فى تفاصيل انا بس بقول كلام عام للتوضيح
3-هو انك عندك داتا بس متعرفش هى متقسمة ازاى وبتحاول تقسمها اقسام وهو ما يسمى Clustering

احد العلماء بيقول مقولة جميلة 
“We are drowning in data, but starving for knowledge!” (John Naisbitt, 1982) 
طيب نيجى للجزء المهم 
ايه علاقة الرياضيات والاحتمالات والاحصاء بالكلام اللى فوق 
كل حاجة فى الكون ليها نمط ودالة بتمشى عليها يعنى مثلا الزلزال العلماء لما درسوها وجدوا انها بتتبع دالة اسمها Gamma وعشان كده بنلاقى مثلا على كلوديرا ومواقع كتير يقولك اهم Probability Distributions 
وعشان كده دراستها من الحاجات اللى بتفيد حتى لو الداتا اللى بتدرسها لا ينطبق عليها اى من الحاجات ده انت بقى عندك الطريقة العلمية اللى تدرس بيها وتثبت صحة دراستك.
من هنا نيجى لأهمية الاحتمالات والاحصاء طبعا ده مثال فى اكتر من ذلك ولكن خلينا اقولك ان تقريبا لو درست احتمالات واحصاء هتلاقى معظم الخوارزميات بتاعة التعرف على الانماط او Machine Learning 
بالنسبة ليك ما هى الا استكمال لما درسته 
طيب ايه لازمة الرياضيات طبعا كل حاجة فى الاحتمالات والاحصاء هتحتاج فيها رياضيات عشان تثبت اللى انت شغال عليه وتفهمه غير الجبر الخطى ال Linear Algebra

طيب نيجى لأخر جزء ويعتبر الاهم للناس نبدأ منين 
طبعا انا مش خبير اوى بس هقول على وجهة نظرى

قبل لما ابدأ فى سرد الكورسات استاذنا دكتور وليد كان دايما يقولنا ان العلم بيتأخد من الكتب مفيش حاجة اسمها انا لاقيت ملف او pdf بيلخص الموضوع لازم نقرأ الكتاب ونثبت الاثبات بأيدينا ونحل التطبيقات او المسائل اللى فى اخر كل فصل لو معلملتش كده متقدرش تقول انك فهمت الموضوع حتى لو انت عارف الحل كده بدماغك لازم “يتكتب”

ونفكر ببيت الإمام الشافعى 
العِلمُ صَيدٌ والكِتابةُ قَيدُهُ — قَيِّدْ صيودكَ بالحِبالِ الواثِقَة 
فَمِن الحَماقَةِ أَنْ تَصيدَ غَزالَةً — وتَترُكها بَينَ الخَلائقِ طالِقةَ

طيب على البركة كده نبدأ نعرض الكورسات 
1-الاحتمالات والاحصاء انا ارشح الكورس بتاع دكتور وليد يوسف على اليوتيوب هنلاقيه فى اللينكات ده
https://www.youtube.com/playlist?list=PL158D091D26F47358 
https://www.youtube.com/playlist?list=PL3D4FE18BAD4F8AE1 
والكتاب اللى الكورس بيدرس منه 
Mathematical Statistics and Data Analysis by John Rice .
http://www.amazon.com/Mathematical-Statistics-…/…/0534399428 
الكتاب كنا اشتريناه من مكتبة بكة فى المعادى ب210ج تقريبا 
ياريت نحل الواجبات اللى موجودة على الموقع هنا 
http://www.helwan.edu.eg/…/Dr.WaleedYou…/HTML/ProbStatI.html 
2-الجبر الخطى Linear Algebra 
الكورس بتاع عالم كبير جدا اسمه جلبرت ستيرنج 
طبعا التصوير مش اوى بس واضح ومن اوائل الكورسات اللى اتصورت اونلاين وفعلا الكورس ده مفيش حد بيدرسه افضل من الراجل ده وكل حاجة موجودة على الموقع
http://ocw.mit.edu/…/18-06-linear-algebra-s…/video-lectures/

3-التفاضل والتكامل فيه كتاب جميل لو حد حابب يراجع يعنى او فيه حاجة وقفت بتاع الكتاب ضخم مش محتاج تدوس فيه كله 
http://www.amazon.com/Calculus-James-Stewart/dp/1285740629

نيجى لما بعد ده انا شايف ان النقطة رقم 1 هى الاهم و 2 شوية الاخير على حسب مدى التعمق فى الموضوع
كورسات التعرف على الانماط ارشح كورسين كبداية 
الكورس الاول بتاع دكتور وليد يوسف 
http://www.helwan.edu.eg/…/Dr.…/HTML/PatternRecognition.html 
الكورس التانى بتاع دكتور ياسر ابو مصطفى دكتور فى جامعة كالتك 
Learning from Data
https://work.caltech.edu/telecourse.html 
الاتنين كويسين جدا وطريقتهم بسيطة دكتور ياسر اسهل شوية من دكتور وليد بس انا بفضل دكتور وليد فى المحتوى..
علاقة الكلام اللى فوق بال Big Data
هنشرحها فى بوست تانى عشان البوست هيطول اكتر من كده…
بالتوفيق 🙂
لو فى اخطاء فى البوست او حد حابب يضيف انا بعتذر عنها وياريت يعرفنى عشان اصلحها والكل يستفيد
تحديث من احد الاصدقاء 
لو حد حابب الجزء النظري والتطبيقي :
1) كورس جامعة ستانفورد ع كورسيرا وبيستخدم matlab 
https://www.coursera.org/learn/machine-learning
2)في specialization ع كورسيرا ودي بتستخدم الادوات دي python,graphlab and ipython notebook 
وممكن برضوا تستخدم ادوات تانيه زي ماتحب زي panda ,scikitlearn 
https://www.coursera.org/specializations/machine-learning
عباره عن مجموعة من الكورسات (regression ,classification,clustering,recommendation ,Capstone: An Intelligent Application with Deep Learning)
اكثر مايميزه انهم بيستخدموا طريقه في الشرح مختلفه بيسموها case-study بالطريقه دي بيحاولوا يقللوا التعقيد بانهم يدوا امثله عمليه من الحياه وتبدا تشتغل معاها ,مثال regression—> predicting house prices

Posted By: Moustafa Mahmoud

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s