شباب اى حد بيسأل نبدأ منين لو حابين نذاكر Big data or Data Science البوست ده ان شاء الله هيجاوب عليكم…
دلوقتى معظم الناس بره بتشتغل مش انك تاخد كورسات مختلفة وانت تحاول تجمع الفكرة لا دلوقتى فى تخصصات كاملة بتدرس على النت وهو بيحطلك المنهج اللى يخليك متخصص فيه وبيبدأ معاك من الصفر ولو في كورسات معتمد عليها هيقولك ويحطلك اللينكات بتاعتها وممكن تاخد شهادة فى الاخر انك اجتزت التخصص ده.
هحط شوية تخصصات هتبدأ الشهر ده على كورسيرا. وبتتكرر كل شهر تقريبا. بعض الكورسات حطيت التفاصيل بتاعتها كل كورس موجود تقريبا مدته شهر ومتوسط اقصى كورس مذاكرة هتكون 7:9 ساعات اسبوعي وياريت لو حد هيبدأ او شغال ممكن يعرفنا عشان ممكن نعمل ورش عمل في التخصصات ونتشارك المحتوى. بالتوفيق… فى بوست تعليق على البوست ده ياريت اللى حابب يبدأ يقرأه برده https://www.facebook.com/groups/big.data.egypt/1651381198454408/
**Introduction to Big Data **Hadoop **Introduction to Big Data Analytics **Machine Learning With Big Data **Introduction to Graph Analytics Big Data – Capstone
2- Data Science Specialization. One of the best Data Science Specialization from Johns Hopkins University https://www.coursera.org/specialization/jhudatascience/1 I working in this specialization now. It starts from “zero knowledge”
××-The Data Scientist’s Toolbox ××-R Programming ××-Getting and Cleaning Data ××-Exploratory Data Analysis ××-Reproducible Research ××-Statistical Inference ××-Regression Models ××-Practical Machine Learning ××-Developing Data Products
**Data Manipulation at Scale: Systems and Algorithms **Practical Predictive Analytics: Models and Methods **Communicating Results: Visualization, Ethics, Reproducibility **Data Science at Scale – Capstone Project
**Machine Learning Foundations: A Case Study Approach **Regression **Classification **Clustering & Retrieval **Recommender Systems & Dimensionality Reduction **Machine Learning Capstone: An Intelligent Application with Deep Learning
االسلام عليكم ناس كتير تقريبا يوميا بيسألوا عن دبلومة جامعة النيل وهل نقدم فيها ولا لأ وعلى فكرة هى هتفتح الترم ده يعنى مش محتاج تستنى للسنة الجديدة انا قلت بدل لما كل واحد اقعد اقول نفس الكلام انشره لعله يكون مفيد ولو حد عنده رأيى لاثراء المنشور ياريت يبعتلى حابب بس اوضح انى اخدت الكورسين سواء بتاع البيج داتا او تعلم الالة”الماشين لايرننج” قبل بداية الدبلومة اساساً وده انا كنت شايفه شئ ايجابى.
طيب هل الدبلومة تستحق المبلغ المطلوب فيها؟؟ على حسب يعنى إنصافاً انا شايف ان الواحد مش بيحتاج تدريب عامة فى مكان بفلوس من كتر المواد الموجودة على الانترنت وشخصياً شايف ان البيج داتا بالذات فى تقريبا اتفاق انها تبقى بشكل ما مبهمة على الناس وعمل بووم حولها كده لخدمة مصلحة بعض الشركات وعدم تبسيطها على الطلاب.. لكن ايضاً للإنصاف لو حاول اى حد ان يأخذ تدريب مماثل سيدفع على الاقل تمن الدبلومة كاملة مكونة من اربع مواد على تدريب واحد من كلوديرا…
طيب خلونا نقول وجهة النظر المدافعة عن انها فعلا مفيدة جدا للناس 1-الدبلومة بيدرسها اساتذة محترفين جدا ومتمكنين من المحتوى. 2- المحتوى قيّم فى وجهة نظرى وتركيز على نواحِ مختلفة ما بين الاكاديمية والتقنية. 3- المحتوى فى البيج داتا هو محتوى التدريبى لكلوديرا بشراكة ما بين جامعة النيل وكلوديرا 4- الدبلومة مفيدة جدا للناس اللى مش بتقدر تلتزم انها مثلا تمسك كتاب زى كتاب Hadoop the definitive Guide تقرأ اول 5 شباتر عشان تقدر تستوعب البيج داتا والتفاصيل بتاعتها 5- الكورسات فيها تنوع كبير فى طرق الشرح على سبيل المثال دكتور سامح الانصارى بيشرح المحاضرة اونلاين على موقعه ويترك لك حرية مشاهدتها وقتما تشاء ومن ثم المحاضرة تعتبر لاب واسألة كنت سعيد جدا جدا وفدنى على المستوى الشخصى فى التعلم لاننا كنا شغالين بنظام ال Peer Programming 6- كورس تعلم الالة Machine Learning كان مفيد جدا وعلى عكس كل الاراء فى وجهة نظرى الكورس ليس نظرى على الاطلاق لو تمت مقارنته مثلا بكورس المماثل على ستانفورد بتاع هيستى او تبشرانى اه الكورس به بعض الاسس النظرية واللى مش منطق ان حد يشتغل فى المجال لب هدفه فقط هو ان الواحد يستخدم الخوارزميات دون فهم ما بداخلها وعلى نفس الرأى شايف انه يدوب قشور 7- الجزء التانى من الدبلومة هيكون فيها سبارك وشغل متقدم على البيج داتا الى جانب الداتا مايننج اللى هتخش على المحتوى ايضاً لاثراءه 8- فى تركيز على توصيل ال Hadoop Architecture وده من اهم الحاجات وتفاصيل فى اول جزء من الكورس 9-اخيراً فى تطور فى الكورس يعنى الجزء الاول مقدمة عن الهادوب عامة وبعد كده جزء على كل echo system والجزء التانى Spark وبصراحة ده فى حد ذاته يدل ان دكتور سامح بيطاور السوق بشكل كبير
طيب خلونا نقول وجهة النظر اللى شايفة انها مش مفيدة او مش على القدر الكافى
1- المحتوى مش قوى للدرجة القوية بمعنى انه احيانا بيغفل بعض الاشياء ويركز على البعض الاخر دون سبب مقنع فى ذلك وده كان واضح فى الترم اللى فات. 2- لو الماتريال بتاعة التدريب بتاع البيج داتا موجودة اونلاين فى تقديرى لن يحتاج احد للتدريب لانه الاب موجود اونلاين مع بعض الحلول. 3- كورس الماشين فى ناس كتير بتقيمه ان فى اماكن فى مصر بيدرس فيها افضل من هناك وانا ظنى موافق على ده واضيف انى احياناً كنت بشعر ان المحتوى يحتاج للمزيد من المحاضرات للتفصيل او لشرح بعض النقاط بشكل مستفيض اكثر غير ان الطالب بيصعب عليه ان يدرس المحتوى بمفرده لعدم وجود مرجع واضح للمادة الدكتور على حسب فهمى بيحضر من اكتر من مرجع ولا يستطيع الطالب انه يرجع لمرجع معين. 4- المحتوى فيه اجزاء منه تقريباً لم تشرح او شُرِحَت بشكل سريع. 5- لا يوجد تدريب على مشروع كامل متكامل من البداية الى النهاية وإن كان على حسب الاعلان من الجامعة فى النهاية هيتم عمل مشروع فى نهاية الدبلومة. 6- محتوى المحاضرات لا يحتاج الى دبلومة بأستثناء البيج داتا وده عشان الادوات بتاعة كلوديرا واللى برده جزء كبير منها موجود اونلاين زى ال VM, Labs. 7- المحتوى فى البيج داتا حاول يوازن ما بين انه يشرح الاساسيات وانه يعطى فكرة عن ال echo systems بس فى ناس كتير شايفة انها محتاجة تاخد وقت اكتر فى الشرح والتفصيل لان بعضها لما بنيجى نشتغل فى مشاريع كبيرة ومتكامل ممكن نستخدم اكتر من مشروع وعدم المعرفة بالتفاصيل او ازاى بيشتغل ودوره بيخلى الواحد ليس لديه صورة كاملة.
برده ده ملف محتوى كورس الماشين للأمانة مش كل المحتوى ده بيدرس يكاد يكون النصف
https://www.facebook.com/…/Course%20Contents-%20Machine%20L… طبعا انا رأيى قد يكون انحيازى لجامعة النيل انا فعلا بحب الجامعة بس حاولت اقول الاراء اللى حاسس انها منطقية تجاه الدبلومة وشايف انها حاجة رائعة ان الجامعة تقدم ده مهما كان التجربة اكيد ليها ايجابياتها وسلبياتها 🙂 واتمنى ان الجامعة تركز انها تطور من الدبلومة ومن المحتوى والادوات وبعض التنظيم شوية اعتقد الدبلومة ممكن ترقى لأكثر من ذلك .
البوست ده هو بغرض توضيح العلاقات المتشابكة بين Machine Learning and Big Data وازاى ممكن حد يبدأ يتعلم ال Machine Learning والعلوم القائمة لعيها وده بسبب انى ملاحظ ان الموضوع متشابك وفى خلط كبير على الناس… طيب تعالوا نبسط الموضوع فى الاول نعتبر ان مفيش حاجة اسمها Big data احنا فى الاساس شغالين على البيانات وتنظيمها وتحليلها ومن ثمّ اننا نحاول نطلع معلومات وتوقعات من البيانات تمام؟ دايما كان اساتذتنا فى الكلية بيقولوا ايه لو عايز تلغبط الناس ومش عايز توضح الحقيقة اوعى ان تضع مصطلح وتضع له تعريف واضح حتى لا يفهمه الناس ببساطة ومن هنا يمكن لكل فرد ان يضع ما يريده فى هذا العلم… طيب حتى لا يختلط الامر فى اكتر من معنى ومصطلح بيُسمى بيهم ال Machine Learning
1- Statistical Learning وده اغلب الناس اللى خلفيتهم رياضية وبيشتغلوا فى المجال على الداتا بيسموه كده وغالبية علماء المجال القدام بيسموه كده 2-Machine Learning وده غالبية الناس اللى خلفيتهم هندسية بيطلقوا عليه المصطلح ده 3- Pattern Recognition وده المصطلح اللى بيسمى بيه الناس بتوع علوم الحاسب التسمية ده كان احد الاساتذة شرحها وفصلها فى محاضرة بس مش وقتها هنا بس حبيت اوضحها فى الاول عشان لا يختلط الامر… التعريف اللى موجود على ويكبيديا مٌعبر جدا وواضح Machine learning: Explores the study and construction of algorithms that can learn from and make predictions on data. Such algorithms operate by building a model from example inputs in order to make data-driven predictions or decisions, rather than following strictly static program instructions.
طيب نُكمل الموضوع اى حد بيجيلوا بيانات بيدأ يظبطها وبعد كده يعرضها بصورة توضيحية وبعد كده بيبقى قدامنا طريفين لا ثالث لهما Supervised Learning and Un Supervised Learning هحاول ابقى اشرحهم بعدين تفصيليا المهم اننا داخل الطرق ده بيبقى عندنا عدة اهداف واضحة بيختلفوا على حسب طبيعة المشكلة اللى بنواجهها 1- بناء دالة لما ندخل ليها البيانات من غير لما نعرف اى الاقسام تنتمى اليها الدالة ده بتقولنا لوحدها ده تنتنمى لكذا او لكذا مثال عندنا آشعة بتقول هل فى ربنا يعافينا جميعاً سرطان فى الاشعة ده ولا لأ ايه الخطواط بأختصار ؟ *بناخد جزء من الاشعة ده بنكون عارفين مسبقا هى فيها ولا لأ ونعمل دالة وبعد كده لما ندخل آشعة جديدة الدالة لوحدها تقولنا الاشعة فيها سرطان ولا لأ يبقى القرار هنا تجاه حاجتين فيها ولا لأ Yes or No وده بيسمى Classification Classification is a general process related to categorization, 2- اننا يكون عندنا بيانات برده بس المره ده عايزين نستنتج بعض المتغيرات فى الدالة ده اعتمادا على قيم وقياسات عشوائية عشان نقدر نبنى دالة وفيه كلام كتير هو مش بناء فقط هو ازاى نحليل الانحدار فى الداتا وبناء عليه نقدر بعدين نستنتج الى “الى اى مدى ” البيانات ده تنتمى الى القسم ده بمعنى لو عندى بيانات مجهولة بنقول بنسبة كام فى المية البيانات ده تنتمى الى القسم ده يعنى فيها احتمالات واحصاء مش قرار yes or no وهو ما يسمى Regression طبعا فى تفاصيل انا بس بقول كلام عام للتوضيح 3-هو انك عندك داتا بس متعرفش هى متقسمة ازاى وبتحاول تقسمها اقسام وهو ما يسمى Clustering
احد العلماء بيقول مقولة جميلة “We are drowning in data, but starving for knowledge!” (John Naisbitt, 1982) طيب نيجى للجزء المهم ايه علاقة الرياضيات والاحتمالات والاحصاء بالكلام اللى فوق كل حاجة فى الكون ليها نمط ودالة بتمشى عليها يعنى مثلا الزلزال العلماء لما درسوها وجدوا انها بتتبع دالة اسمها Gamma وعشان كده بنلاقى مثلا على كلوديرا ومواقع كتير يقولك اهم Probability Distributions وعشان كده دراستها من الحاجات اللى بتفيد حتى لو الداتا اللى بتدرسها لا ينطبق عليها اى من الحاجات ده انت بقى عندك الطريقة العلمية اللى تدرس بيها وتثبت صحة دراستك. من هنا نيجى لأهمية الاحتمالات والاحصاء طبعا ده مثال فى اكتر من ذلك ولكن خلينا اقولك ان تقريبا لو درست احتمالات واحصاء هتلاقى معظم الخوارزميات بتاعة التعرف على الانماط او Machine Learning بالنسبة ليك ما هى الا استكمال لما درسته طيب ايه لازمة الرياضيات طبعا كل حاجة فى الاحتمالات والاحصاء هتحتاج فيها رياضيات عشان تثبت اللى انت شغال عليه وتفهمه غير الجبر الخطى ال Linear Algebra
طيب نيجى لأخر جزء ويعتبر الاهم للناس نبدأ منين طبعا انا مش خبير اوى بس هقول على وجهة نظرى
قبل لما ابدأ فى سرد الكورسات استاذنا دكتور وليد كان دايما يقولنا ان العلم بيتأخد من الكتب مفيش حاجة اسمها انا لاقيت ملف او pdf بيلخص الموضوع لازم نقرأ الكتاب ونثبت الاثبات بأيدينا ونحل التطبيقات او المسائل اللى فى اخر كل فصل لو معلملتش كده متقدرش تقول انك فهمت الموضوع حتى لو انت عارف الحل كده بدماغك لازم “يتكتب”
نيجى لما بعد ده انا شايف ان النقطة رقم 1 هى الاهم و 2 شوية الاخير على حسب مدى التعمق فى الموضوع كورسات التعرف على الانماط ارشح كورسين كبداية الكورس الاول بتاع دكتور وليد يوسف http://www.helwan.edu.eg/…/Dr.…/HTML/PatternRecognition.html الكورس التانى بتاع دكتور ياسر ابو مصطفى دكتور فى جامعة كالتك Learning from Data https://work.caltech.edu/telecourse.html الاتنين كويسين جدا وطريقتهم بسيطة دكتور ياسر اسهل شوية من دكتور وليد بس انا بفضل دكتور وليد فى المحتوى.. علاقة الكلام اللى فوق بال Big Data هنشرحها فى بوست تانى عشان البوست هيطول اكتر من كده… بالتوفيق 🙂 لو فى اخطاء فى البوست او حد حابب يضيف انا بعتذر عنها وياريت يعرفنى عشان اصلحها والكل يستفيد تحديث من احد الاصدقاء لو حد حابب الجزء النظري والتطبيقي : 1) كورس جامعة ستانفورد ع كورسيرا وبيستخدم matlab https://www.coursera.org/learn/machine-learning 2)في specialization ع كورسيرا ودي بتستخدم الادوات دي python,graphlab and ipython notebook وممكن برضوا تستخدم ادوات تانيه زي ماتحب زي panda ,scikitlearn https://www.coursera.org/specializations/machine-learning عباره عن مجموعة من الكورسات (regression ,classification,clustering,recommendation ,Capstone: An Intelligent Application with Deep Learning) اكثر مايميزه انهم بيستخدموا طريقه في الشرح مختلفه بيسموها case-study بالطريقه دي بيحاولوا يقللوا التعقيد بانهم يدوا امثله عمليه من الحياه وتبدا تشتغل معاها ,مثال regression—> predicting house prices