learn Data Science by doing

learn Data Science by doing…
Here is a list of hands-on tutorials. Collected under a condition that it contains end to end practical steps starting from a data set and ending with the data science deliverable…

Have a joyful learning…

Kaggle solution to competition (Denoising Dirty Documents – Image Processing)
http://blog.kaggle.com/…/image-processing-machine-learning…/

All parts here:
https://colinpriest.com/…/01/denoising-dirty-documents-par…/
https://colinpriest.com/…/07/denoising-dirty-documents-par…/
https://colinpriest.com/…/14/denoising-dirty-documents-par…/
https://colinpriest.com/…/21/denoising-dirty-documents-par…/
https://colinpriest.com/…/28/denoising-dirty-documents-par…/
https://colinpriest.com/…/07/denoising-dirty-documents-par…/
https://colinpriest.com/…/23/denoising-dirty-documents-par…/
https://colinpriest.com/…/02/denoising-dirty-documents-par…/
https://colinpriest.com/…/15/denoising-dirty-documents-par…/
https://colinpriest.com/…/denoising-dirty-documents-part-10/
https://colinpriest.com/…/denoising-dirty-documents-part-11/
https://colinpriest.com/…/an-even-dozen-denoising-dirty-do…/

/******************************************/

Kaggle Solution for Second Annual Data Science Bowl: Automatically Finding the Heart Location in an MRI Image

Part 1:
https://colinpriest.com/…/second-annual-data-science-bowl-…/

Part 2:
https://colinpriest.com/…/second-annual-data-science-bowl-…/

Part 3:
https://colinpriest.com/…/second-annual-data-science-bowl-…/

/******************************************/

Kaggle Titanic Solution in R
https://www.kaggle.com/c/…/detai…/new-getting-started-with-r

and in Python
https://www.kaggle.com/…/details/getting-started-with-python

/******************************************/

Predicting SAT scores for New York Schools
http://blog.kaggle.com/…/getting-started-with-pandas-predi…/

/******************************************/

Diagnosing Heart Diseases 
http://blog.kaggle.com/…/diagnosing-heart-diseases-with-de…/

/******************************************/

Analytics Vidhya Case Study: Optimize Pricing for online vendor:
http://www.analyticsvidhya.com/…/solving-case-study-optimi…/

/******************************************/

Learn Analytics With Complete Case Study:
Part 1:
http://www.analyticsvidhya.com/…/learn-analytics-business-…/
Part 2:
http://www.analyticsvidhya.com/…/learn-analytics-business-…/

/******************************************/

Conjoint analysis with R
http://www.analyticsvidhya.com/…/beginner-tutorial-conjoin…/

/******************************************/

Kaggle solution: Text analytics:
http://www.analyticsvidhya.com/…/kaggle-solution-cooking-t…/

/******************************************/

Update: 28-July-2016:
Spam filtering using Python:
http://radimrehurek.com/data_science_python/

/******************************************/

Open source list of tutorials with links end-to-end:
https://github.com/donnemart…/data-science-ipython-notebooks

/******************************************/

Complete series for Kaggle competition 
http://brettromero.com/wo…/category/technology/data-science/

/******************************************/

Open source index for Data Science practical lessons:
https://github.com/open-source-society/data-science

/******************************************/

Update 23rd April – 2017:

Kaggle All State Purchase Prediction:
https://www.kaggle.com/c/allstate-purchase-prediction-chall…

Solution in R:
https://github.com/B1aine/kaggle-allstate

Solution in Python:
https://github.com/alzmcr/allstate

/******************************************/

Kaggle MLSP Birds Classification:
https://www.kaggle.com/c/mlsp-2013-birds

Solution:
https://github.com/gaborfodor/MLSP_2013

/******************************************/

Kaggle Galaxy Zoo Challenge:
https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge

Solution in Python:
https://github.com/benanne/kaggle-galaxies

/******************************************/

Kaggle Large Scale Hierarchical Text Classification:
https://www.kaggle.com/c/lshtc

Solution in C++ (WoW – 3rd Place Winner):
https://github.com/nagadomi/kaggle-lshtc

/******************************************/

Another great list of competitions with answers:
http://www.chioka.in/kaggle-competition-solutions/

/******************************************/

To be continued…
Please share your links and I’ll add it…

Posted By: Ahmed Zareef

Where can I find large datasets open to the public?

Q. Where can I find large datasets open to the public?
A.

– Cross-disciplinary data repositories, data collections and data search engines:

  1. https://www.kaggle.com/datasets
  2. http://www.assetmacro.com
  3. http://usgovxml.com
  4. http://aws.amazon.com/datasets
  5. http://databib.org
  6. http://datacite.org
  7. http://figshare.com
  8. http://linkeddata.org
  9. http://reddit.com/r/datasets
  10. http://thewebminer.com/
  11. http://thedatahub.org alias http://ckan.net
  12. http://quandl.com
  13. http://www.growmeme.com/overview
  14. http://www.kdnuggets.com/datasets/index.html
  15. http://enigma.io
  16. http://www.ufindthem.com/
  17. http://NetworkRepository.com
  18. http://MLvis.com
  19. http://www.growmeme.com/overview
  20. http://data.opendatasoft.com
  21. http://gdeltproject.org/data.html

__________________________

– Single datasets and data repositories

1- http://archive.ics.uci.edu/ml/
2- http://crawdad.org/
3- http://data.austintexas.gov
4- http://data.cityofchicago.org
5- http://data.govloop.com
6- http://data.gov.uk/
7- http://data.gov.in
8- http://data.medicare.gov
9- http://data.seattle.gov
10- http://data.sfgov.org
11- http://data.sunlightlabs.com
12- https://datamarket.azure.com/
13- http://developer.yahoo.com/geo/g
14- http://econ.worldbank.org/datasets
15- http://en.wikipedia.org/wiki/Wik
16- http://factfinder.census.gov/ser
17- http://ftp.ncbi.nih.gov/
18- http://gettingpastgo.socrata.com
19- http://googleresearch.blogspot.c...
20- http://books.google.com/ngrams/
21- http://medihal.archives-ouvertes.fr
22- http://public.resource.org/
23- http://rechercheisidore.fr
24- http://snap.stanford.edu/data/in
25- http://timetric.com/public-data/
26- https://wist.echo.nasa.gov/~wist
27- http://www2.jpl.nasa.gov/srtm
28- http://www.archives.gov/research
29- http://www.bls.gov/
30- http://www.crunchbase.com/
31- http://www.dartmouthatlas.org/
32- http://www.data.gov/
33- http://www.datakc.org
34- http://dbpedia.org
35- http://www.delicious.com/jbaldwi
36- http://www.faa.gov/data_research/
37- http://www.factual.com/
38- http://research.stlouisfed.org/f
39- http://www.freebase.com/
40- http://www.google.com/publicdata
41- http://www.guardian.co.uk/news/d
42- http://www.infochimps.com
43- http://www.kaggle.com/
44- http://build.kiva.org/
45- http://www.nationalarchives.gov.
46- http://www.nyc.gov/html/datamine
47- http://www.ordnancesurvey.co.uk/
48- http://www.philwhln.com/how-to-g
49- http://www.imdb.com/interfaces
50- http://imat-relpred.yandex.ru/en
51- http://www.dados.gov.pt/pt/catal
52- http://knoema.com
53- http://daten.berlin.de/
54- http://www.qunb.com
55- http://databib.org/
56- http://datacite.org/
57- http://data.reegle.info/
58- http://data.wien.gv.at/
59- http://data.gov.bc.ca
60- https://pslcdatashop.web.cmu.edu/
61- http://www.icpsr.umich.edu/icpsrweb/CPES/ – Collaborative 
62- http://www.dati.gov.it
63- http://dati.trentino.it
64- http://www.databagg.com/
65- http://networkrepository.com
66- http://www.grid.unep.ch/index.php?lang=en
_______
Source : Quora

Contributions from group members:
1- http://academictorrents.com/

By Hatem Kotb
Below are some of the links I found that contain data sets for those who want to practice. Some of them are public city data sets filtered by type (Education, Health, Transport…etc.)

  1. http://open.canada.ca/en
  2. http://www.eea.europa.eu/data-and-maps/
  3. http://homepage.data-planet.com/
  4. https://inventory.data.gov/dataset
  5. http://www.google.com/publicdata/directory
  6. http://www.europeandataportal.eu/
  7. https://nycopendata.socrata.com/
  8. https://www.quandl.com/
  9. https://www.quora.com/Where-can-I-find-large-datasets-open-…
  10. https://www.reddit.com/r/datasets
  11. https://data.sfgov.org/
  12. https://archive.ics.uci.edu/ml/datasets.html
  13. https://data.gov.uk/
  14. http://www.data.gov/education/
  15. http://www.data.gov/
  16. http://www.liquidasset.com/winedata.html
  17. http://finance.yahoo.com/q/hp?s=YHOO
  18. http://toddwschneider.com/…/analyzing-1-1-billion-nyc-taxi…/
  19. http://wiki.dbpedia.org/Datasets
  20. http://archive.ics.uci.edu/ml/datasets.html
  21. http://support.minitab.com/en-us/datasets/
  22. http://apps.who.int/gho/data/node.main
  23. http://datasociety.co/data/
  24. https://data.cityofchicago.org/…/Crimes-2001-to-p…/ijzp-q8t2
  25. http://www.baseball-reference.com/
  26. https://crudata.uea.ac.uk/cru/data/temperature/
  27. http://www.esrl.noaa.gov/gmd/ccgg/data-products.html
  28. http://nces.ed.gov/pubsearch/pubsinfo.asp?pubid=2011038

#datasets #data

Posted By : Mohamed Abuelanin

How to Start Big Data or Data Science

شباب اى حد بيسأل نبدأ منين لو حابين نذاكر Big data or Data Science
البوست ده ان شاء الله هيجاوب عليكم…

دلوقتى معظم الناس بره بتشتغل مش انك تاخد كورسات مختلفة وانت تحاول تجمع الفكرة لا دلوقتى فى تخصصات كاملة بتدرس على النت وهو بيحطلك المنهج اللى يخليك متخصص فيه وبيبدأ معاك من الصفر ولو في كورسات معتمد عليها هيقولك ويحطلك اللينكات بتاعتها وممكن تاخد شهادة فى الاخر انك اجتزت التخصص ده.

هحط شوية تخصصات هتبدأ الشهر ده على كورسيرا. وبتتكرر كل شهر تقريبا. بعض الكورسات حطيت التفاصيل بتاعتها كل كورس موجود تقريبا مدته شهر ومتوسط اقصى كورس مذاكرة هتكون 7:9 ساعات اسبوعي
وياريت لو حد هيبدأ او شغال ممكن يعرفنا عشان ممكن نعمل ورش عمل في التخصصات ونتشارك المحتوى.
بالتوفيق…
فى بوست تعليق على البوست ده ياريت اللى حابب يبدأ يقرأه برده 
https://www.facebook.com/groups/big.data.egypt/1651381198454408/

1-Big Data Specialization
https://www.coursera.org/specializations/big-data

**Introduction to Big Data
**Hadoop
**Introduction to Big Data Analytics
**Machine Learning With Big Data
**Introduction to Graph Analytics
Big Data – Capstone

2- Data Science Specialization.
One of the best Data Science Specialization from Johns Hopkins University
https://www.coursera.org/specialization/jhudatascience/1
I working in this specialization now. It starts from “zero knowledge”

××-The Data Scientist’s Toolbox
××-R Programming
××-Getting and Cleaning Data
××-Exploratory Data Analysis
××-Reproducible Research
××-Statistical Inference
××-Regression Models
××-Practical Machine Learning
××-Developing Data Products

3-Data Science at Scale Specialization
https://www.coursera.org/specializations/data-science
From George Washington University

**Data Manipulation at Scale: Systems and Algorithms
**Practical Predictive Analytics: Models and Methods
**Communicating Results: Visualization, Ethics, Reproducibility
**Data Science at Scale – Capstone Project

4-Machine Learning Specialization
https://www.coursera.org/specializations/machine-learning
From George Washington University

**Machine Learning Foundations: A Case Study Approach
**Regression
**Classification
**Clustering & Retrieval
**Recommender Systems & Dimensionality Reduction
**Machine Learning Capstone: An Intelligent Application with Deep Learning

5-Data Warehousing for Business Intelligence Specialization
https://www.coursera.org/specializations/data-warehousing

6-Data Analysis and Interpretation Specialization
https://www.coursera.org/specializations/data-analysis

7-Internet of Things Specialization
https://www.coursera.org/specializations/internet-of-things

8-Internet of Things and Embedded Systems Specialization
https://www.coursera.org/specializations/iot

NU Diploma vs Coursera vs ITI

في أسئلة كتير عن مقارنة التراكين بتوع ال ITI و دبلومة جامعة النيل و كورسات كورسيرا او الكورسات الأونلاين عموما…
فأنا حابب أقول رأيي و أرجو من الزملاء هنا يقولوا رأيهم كمان عشان الناس اللي بتسأل تعرف توصل لرأي مجمع من الكل في مكان واحد…
مبدئيا أنا حاليا فاضل لي أسلم مشروع التخرج بتاع جامعة النيل إن شاء الله (دعواتكم) و انا كنت في اول دفعة للدبلوما… 
ثانيا أنا مدخلتش ال ITI قبل كدة و كل اللي حقوله من اللي عرفته من الطلبة اللي درسوا هناك أو من المشرفين على الدبلوما
و بالنسبة للكورسات أونلاين أنا ذاكرت كذا حاجة بس ده كان من فترة و مكانش لسة ظهرت حكاية ال specializations وقتها…

بالنسبة لجامعة النيل… الدبلوما اسمها Big Data and Data Science Diploma … مكونة من ترمين… في كل ترم مادتين… الترم الأول 
Big Data 1 and Machine Learning
مادة البيج داتا سواء في الترم الأول أو التاني تحفة… أكتر من رائعة… الدكتور سامح الأنصاري معلم بمعنى الكلمة… متفوتوهوش… و بمنتهى الأمانة لو مش هو اللي حيدرس المادة متدخلوش الدبلوما أحسن… و استنوا الدفعة اللي هو بيدرس فيها… المنهج عنيف بصراحة بس مفيد جدا… و كافي جدا كبداية تعرفك حتذاكر ازاي بعد كدة و تكمل كمحترف في المجال…
المادة التانية في الترمين Machine Learning and Data Mining
الترم الأول دكتور سيف الدولتلي و ده في الماشين ليرننج زي عمر خيرت في الموسيقى كدة… حاجة مزاج مش مجرد تعليم… و معاه في الترم الأول برضه دكتور أحمد فهمي احصا و احتمالات… أنا شخصيا كنت باخرج من المحاضرة عامل دماغ فعليا… استمتعت جدا و استفدت جدا من الكورس…
الترم التاني عندك اختيارين… كل اختيار بيدرسه استاذ مختلف… اللي بيدرسوا الترمين أساتذتي و على راسي من فوق… بس ما اقدرش اقول اكتر من كدة… انا ممكن ما اكونش استفدت بنفس الدرجة بصراحة و ممكن تاخدوا اراء الناس التانية… اعتقد ممكن الترم التاني داتا مايننج يكون أحسن من كدة بكتير…
الخلاصة عندك اربع مواد تلاتة منهم تحفة و الرابع ممكن يبقى أحسن من كدة بكتير…

بالنسبة لل ITI معنديش معلومات كتير لكن من اللي اطلعت عليه في وصف التراكين واضح ان واحد منهم مركز على البيج داتا أكتر… Systems and Development و ده غالبا حيكون موجه للي عايز يشتغل Big Data Developer 
و التاني Data Science اكتر للي حابب يشتغل Data Scientist
بس نصيحة مني للناس اللي بتختار… بلاش كلنا نهجم على الداتا ساينس… انا عارف كويس انه الداتا ساينس احلى و اجمد… و على فكرة مطلوب في سوق العمل بمميزات اعلى… بس فرصة ان حد يشتغل داتا ساينتست و هو لسة خريج بتبقى ضعيفة عشان فعلا المجال صعب… و فرصة ان واحد متخصص بيج داتا يتعلم و ينقل و يشتغل داتا ساينتست أعلى… يعني انا لو متقدملي اتنين واحد فيهم مجرد دارس كورسات داتا ساينس و التاني عنده خبرة عملية في مجال البيج داتا و عنده نفس المعرفة اللي عند الأولاني حاخد التاني بالتأكيد… ده غير ان فرص البيج داتا في السوق أكتر من حيث العدد و الأماكن… و أحسن لك ١٠٠ مرة تشتغل بيج داتا و تذاكر داتا ساينس بحيث تنقل قدام من انك تتخرج داتا ساينتست و متلاقيش شغل و تقعد تذاكر برضه… بفكركم برضه: ده رأيي الشخصي و خبرتي اللي شفتها في السنين اللي فاتت…

بالنسبة للكورسات أونلاين… كورسات كورسيرا بالذات… تحفة يا جماعة… انت بتتعلم من الأساتذة اللي في المجال سواء كأساتذة أو كشركات بت sponsor … متستقلوش خالص بكورسيرا و شهاداتها بس اللي يدخل كورس ياخده بجد و يحل ال assignments and project و يلتزم كإنه في جامعة بالظبط… بلاش حركات المصريين (و أنا أولهم و سيد مين يعمل الحركة الناقصة دي ربنا يهديني) بتاع اول محاضرتين في الكورس و اول صفحتين في الكتاب… لو انت من النوع الصايع ده يبقى تروح بأدبك تقدم في جامعة النيل عشان تلاقي دكتور يجري وراك بالخرزانة و يخليك تذاكر و خصوصا لما كل شهر تدفع فلوس الجامعة من لحمك الحي و تروح المحاضرات في عز تعبك ففي الآخر تستخسر كل ده يروح هدر فتضطر تذاكر زي العيل المشاغب…

يا ريت كل اللي عنده رأي أو معلومة يقولها هنا عشان الكل يستفيد… و بالتوفيق إن شاء الله…

حول دبلومة جامعة النيل

االسلام عليكم 
ناس كتير تقريبا يوميا بيسألوا عن دبلومة جامعة النيل وهل نقدم فيها ولا لأ وعلى فكرة هى هتفتح الترم ده يعنى مش محتاج تستنى للسنة الجديدة انا قلت بدل لما كل واحد اقعد اقول نفس الكلام انشره لعله يكون مفيد ولو حد عنده رأيى لاثراء المنشور ياريت يبعتلى حابب بس اوضح انى اخدت الكورسين سواء بتاع البيج داتا او تعلم الالة”الماشين لايرننج” قبل بداية الدبلومة اساساً وده انا كنت شايفه شئ ايجابى.

طيب هل الدبلومة تستحق المبلغ المطلوب فيها؟؟
على حسب يعنى إنصافاً انا شايف ان الواحد مش بيحتاج تدريب عامة فى مكان بفلوس من كتر المواد الموجودة على الانترنت وشخصياً شايف ان البيج داتا بالذات فى تقريبا اتفاق انها تبقى بشكل ما مبهمة على الناس وعمل بووم حولها كده لخدمة مصلحة بعض الشركات وعدم تبسيطها على الطلاب..
لكن ايضاً للإنصاف لو حاول اى حد ان يأخذ تدريب مماثل سيدفع على الاقل تمن الدبلومة كاملة مكونة من اربع مواد على تدريب واحد من كلوديرا…

طيب خلونا نقول وجهة النظر المدافعة عن انها فعلا مفيدة جدا للناس
1-الدبلومة بيدرسها اساتذة محترفين جدا ومتمكنين من المحتوى.
2- المحتوى قيّم فى وجهة نظرى وتركيز على نواحِ مختلفة ما بين الاكاديمية والتقنية.
3- المحتوى فى البيج داتا هو محتوى التدريبى لكلوديرا بشراكة ما بين جامعة النيل وكلوديرا
4- الدبلومة مفيدة جدا للناس اللى مش بتقدر تلتزم انها مثلا تمسك كتاب زى كتاب 
Hadoop the definitive Guide 
تقرأ اول 5 شباتر عشان تقدر تستوعب البيج داتا والتفاصيل بتاعتها
5- الكورسات فيها تنوع كبير فى طرق الشرح على سبيل المثال دكتور سامح الانصارى بيشرح المحاضرة اونلاين على موقعه ويترك لك حرية مشاهدتها وقتما تشاء ومن ثم المحاضرة تعتبر لاب واسألة كنت سعيد جدا جدا وفدنى على المستوى الشخصى فى التعلم لاننا كنا شغالين بنظام ال 
Peer Programming 
6- كورس تعلم الالة Machine Learning
كان مفيد جدا وعلى عكس كل الاراء فى وجهة نظرى الكورس ليس نظرى على الاطلاق لو تمت مقارنته مثلا بكورس المماثل على ستانفورد بتاع هيستى او تبشرانى اه الكورس به بعض الاسس النظرية واللى مش منطق ان حد يشتغل فى المجال لب هدفه فقط هو ان الواحد يستخدم الخوارزميات دون فهم ما بداخلها وعلى نفس الرأى شايف انه يدوب قشور 
7- الجزء التانى من الدبلومة هيكون فيها سبارك وشغل متقدم على البيج داتا الى جانب الداتا مايننج اللى هتخش على المحتوى ايضاً لاثراءه
8- فى تركيز على توصيل ال Hadoop Architecture
وده من اهم الحاجات وتفاصيل فى اول جزء من الكورس
9-اخيراً فى تطور فى الكورس يعنى الجزء الاول مقدمة عن الهادوب عامة وبعد كده جزء على كل echo system
والجزء التانى Spark
وبصراحة ده فى حد ذاته يدل ان دكتور سامح بيطاور السوق بشكل كبير

طيب خلونا نقول وجهة النظر اللى شايفة انها مش مفيدة او مش على القدر الكافى

1- المحتوى مش قوى للدرجة القوية بمعنى انه احيانا بيغفل بعض الاشياء ويركز على البعض الاخر دون سبب مقنع فى ذلك وده كان واضح فى الترم اللى فات.
2- لو الماتريال بتاعة التدريب بتاع البيج داتا موجودة اونلاين فى تقديرى لن يحتاج احد للتدريب لانه الاب موجود اونلاين مع بعض الحلول.
3- كورس الماشين فى ناس كتير بتقيمه ان فى اماكن فى مصر بيدرس فيها افضل من هناك وانا ظنى موافق على ده واضيف انى احياناً كنت بشعر ان المحتوى يحتاج للمزيد من المحاضرات للتفصيل او لشرح بعض النقاط بشكل مستفيض اكثر غير ان الطالب بيصعب عليه ان يدرس المحتوى بمفرده لعدم وجود مرجع واضح للمادة الدكتور على حسب فهمى بيحضر من اكتر من مرجع ولا يستطيع الطالب انه يرجع لمرجع معين.
4- المحتوى فيه اجزاء منه تقريباً لم تشرح او شُرِحَت بشكل سريع.
5- لا يوجد تدريب على مشروع كامل متكامل من البداية الى النهاية وإن كان على حسب الاعلان من الجامعة فى النهاية هيتم عمل مشروع فى نهاية الدبلومة.
6- محتوى المحاضرات لا يحتاج الى دبلومة بأستثناء البيج داتا وده عشان الادوات بتاعة كلوديرا واللى برده جزء كبير منها موجود اونلاين زى ال 
VM, Labs.
7- المحتوى فى البيج داتا حاول يوازن ما بين انه يشرح الاساسيات وانه يعطى فكرة عن ال echo systems
بس فى ناس كتير شايفة انها محتاجة تاخد وقت اكتر فى الشرح والتفصيل لان بعضها لما بنيجى نشتغل فى مشاريع كبيرة ومتكامل ممكن نستخدم اكتر من مشروع وعدم المعرفة بالتفاصيل او ازاى بيشتغل ودوره بيخلى الواحد ليس لديه صورة كاملة.

اخيراً تقيمى للدبلومة انها 7.5/10

ده ملف الجامعة المفروض بتقدمه للطلاب اللى عايزة تقدم https://www.facebook.com/…/NU%20Big%20Data%20and%20Data%20S…

ولو حد عايز ملف اكثر تفصيلا عن المحتوى داخل كورس البيج داتا

https://www.facebook.com/…/Course%20Contents-Introduction%2…

برده ده ملف محتوى كورس الماشين للأمانة مش كل المحتوى ده بيدرس يكاد يكون النصف

https://www.facebook.com/…/Course%20Contents-%20Machine%20L…
طبعا انا رأيى قد يكون انحيازى لجامعة النيل انا فعلا بحب الجامعة بس حاولت اقول الاراء اللى حاسس انها منطقية تجاه الدبلومة وشايف انها حاجة رائعة ان الجامعة تقدم ده مهما كان التجربة اكيد ليها ايجابياتها وسلبياتها 🙂 
واتمنى ان الجامعة تركز انها
تطور من الدبلومة ومن المحتوى والادوات 
وبعض التنظيم شوية اعتقد الدبلومة ممكن ترقى لأكثر من ذلك .

وبالتوفيق للجميع

Posted By: Moustafa Mahmoud

Difference Between Big Data and Machine Learning (Simplified)

البوست ده هو بغرض توضيح العلاقات المتشابكة بين Machine Learning and Big Data
وازاى ممكن حد يبدأ يتعلم ال Machine Learning 
والعلوم القائمة لعيها 
وده بسبب انى ملاحظ ان الموضوع متشابك وفى خلط كبير على الناس…
طيب تعالوا نبسط الموضوع فى الاول نعتبر ان مفيش حاجة اسمها Big data
احنا فى الاساس شغالين على البيانات وتنظيمها وتحليلها ومن ثمّ اننا نحاول نطلع معلومات وتوقعات من البيانات تمام؟
دايما كان اساتذتنا فى الكلية بيقولوا ايه لو عايز تلغبط الناس ومش عايز توضح الحقيقة اوعى ان تضع مصطلح وتضع له تعريف واضح حتى لا يفهمه الناس ببساطة ومن هنا يمكن لكل فرد ان يضع ما يريده فى هذا العلم…
طيب حتى لا يختلط الامر فى اكتر من معنى ومصطلح بيُسمى بيهم ال Machine Learning

1- Statistical Learning وده اغلب الناس اللى خلفيتهم رياضية وبيشتغلوا فى المجال على الداتا بيسموه كده وغالبية علماء المجال القدام بيسموه كده
2-Machine Learning وده غالبية الناس اللى خلفيتهم هندسية بيطلقوا عليه المصطلح ده 
3- Pattern Recognition وده المصطلح اللى بيسمى بيه الناس بتوع علوم الحاسب 
التسمية ده كان احد الاساتذة شرحها وفصلها فى محاضرة بس مش وقتها هنا بس حبيت اوضحها فى الاول عشان لا يختلط الامر…
التعريف اللى موجود على ويكبيديا مٌعبر جدا وواضح 
Machine learning: Explores the study and construction of algorithms that can learn from and make predictions on data. Such algorithms operate by building a model from example inputs in order to make data-driven predictions or decisions, rather than following strictly static program instructions.

طيب نُكمل الموضوع
اى حد بيجيلوا بيانات بيدأ يظبطها وبعد كده يعرضها بصورة توضيحية وبعد كده بيبقى قدامنا طريفين لا ثالث لهما Supervised Learning and Un Supervised Learning 
هحاول ابقى اشرحهم بعدين تفصيليا 
المهم اننا داخل الطرق ده بيبقى عندنا عدة اهداف واضحة بيختلفوا على حسب طبيعة المشكلة اللى بنواجهها 
1- بناء دالة لما ندخل ليها البيانات من غير لما نعرف اى الاقسام تنتمى اليها الدالة ده بتقولنا لوحدها ده تنتنمى لكذا او لكذا مثال
عندنا آشعة بتقول هل فى ربنا يعافينا جميعاً سرطان فى الاشعة ده ولا لأ 
ايه الخطواط بأختصار ؟
*بناخد جزء من الاشعة ده بنكون عارفين مسبقا هى فيها ولا لأ ونعمل دالة وبعد كده لما ندخل آشعة جديدة الدالة لوحدها تقولنا الاشعة فيها سرطان ولا لأ يبقى القرار هنا تجاه حاجتين فيها ولا لأ Yes or No
وده بيسمى Classification 
Classification is a general process related to categorization,
2- اننا يكون عندنا بيانات برده بس المره ده عايزين نستنتج بعض المتغيرات فى الدالة ده اعتمادا على قيم وقياسات عشوائية عشان نقدر نبنى دالة وفيه كلام كتير هو مش بناء فقط هو ازاى نحليل الانحدار فى الداتا وبناء عليه نقدر بعدين نستنتج الى “الى اى مدى ” البيانات ده تنتمى الى القسم ده بمعنى لو عندى بيانات مجهولة بنقول بنسبة كام فى المية البيانات ده تنتمى الى القسم ده يعنى فيها احتمالات واحصاء مش قرار yes or no وهو ما يسمى Regression طبعا فى تفاصيل انا بس بقول كلام عام للتوضيح
3-هو انك عندك داتا بس متعرفش هى متقسمة ازاى وبتحاول تقسمها اقسام وهو ما يسمى Clustering

احد العلماء بيقول مقولة جميلة 
“We are drowning in data, but starving for knowledge!” (John Naisbitt, 1982) 
طيب نيجى للجزء المهم 
ايه علاقة الرياضيات والاحتمالات والاحصاء بالكلام اللى فوق 
كل حاجة فى الكون ليها نمط ودالة بتمشى عليها يعنى مثلا الزلزال العلماء لما درسوها وجدوا انها بتتبع دالة اسمها Gamma وعشان كده بنلاقى مثلا على كلوديرا ومواقع كتير يقولك اهم Probability Distributions 
وعشان كده دراستها من الحاجات اللى بتفيد حتى لو الداتا اللى بتدرسها لا ينطبق عليها اى من الحاجات ده انت بقى عندك الطريقة العلمية اللى تدرس بيها وتثبت صحة دراستك.
من هنا نيجى لأهمية الاحتمالات والاحصاء طبعا ده مثال فى اكتر من ذلك ولكن خلينا اقولك ان تقريبا لو درست احتمالات واحصاء هتلاقى معظم الخوارزميات بتاعة التعرف على الانماط او Machine Learning 
بالنسبة ليك ما هى الا استكمال لما درسته 
طيب ايه لازمة الرياضيات طبعا كل حاجة فى الاحتمالات والاحصاء هتحتاج فيها رياضيات عشان تثبت اللى انت شغال عليه وتفهمه غير الجبر الخطى ال Linear Algebra

طيب نيجى لأخر جزء ويعتبر الاهم للناس نبدأ منين 
طبعا انا مش خبير اوى بس هقول على وجهة نظرى

قبل لما ابدأ فى سرد الكورسات استاذنا دكتور وليد كان دايما يقولنا ان العلم بيتأخد من الكتب مفيش حاجة اسمها انا لاقيت ملف او pdf بيلخص الموضوع لازم نقرأ الكتاب ونثبت الاثبات بأيدينا ونحل التطبيقات او المسائل اللى فى اخر كل فصل لو معلملتش كده متقدرش تقول انك فهمت الموضوع حتى لو انت عارف الحل كده بدماغك لازم “يتكتب”

ونفكر ببيت الإمام الشافعى 
العِلمُ صَيدٌ والكِتابةُ قَيدُهُ — قَيِّدْ صيودكَ بالحِبالِ الواثِقَة 
فَمِن الحَماقَةِ أَنْ تَصيدَ غَزالَةً — وتَترُكها بَينَ الخَلائقِ طالِقةَ

طيب على البركة كده نبدأ نعرض الكورسات 
1-الاحتمالات والاحصاء انا ارشح الكورس بتاع دكتور وليد يوسف على اليوتيوب هنلاقيه فى اللينكات ده
https://www.youtube.com/playlist?list=PL158D091D26F47358 
https://www.youtube.com/playlist?list=PL3D4FE18BAD4F8AE1 
والكتاب اللى الكورس بيدرس منه 
Mathematical Statistics and Data Analysis by John Rice .
http://www.amazon.com/Mathematical-Statistics-…/…/0534399428 
الكتاب كنا اشتريناه من مكتبة بكة فى المعادى ب210ج تقريبا 
ياريت نحل الواجبات اللى موجودة على الموقع هنا 
http://www.helwan.edu.eg/…/Dr.WaleedYou…/HTML/ProbStatI.html 
2-الجبر الخطى Linear Algebra 
الكورس بتاع عالم كبير جدا اسمه جلبرت ستيرنج 
طبعا التصوير مش اوى بس واضح ومن اوائل الكورسات اللى اتصورت اونلاين وفعلا الكورس ده مفيش حد بيدرسه افضل من الراجل ده وكل حاجة موجودة على الموقع
http://ocw.mit.edu/…/18-06-linear-algebra-s…/video-lectures/

3-التفاضل والتكامل فيه كتاب جميل لو حد حابب يراجع يعنى او فيه حاجة وقفت بتاع الكتاب ضخم مش محتاج تدوس فيه كله 
http://www.amazon.com/Calculus-James-Stewart/dp/1285740629

نيجى لما بعد ده انا شايف ان النقطة رقم 1 هى الاهم و 2 شوية الاخير على حسب مدى التعمق فى الموضوع
كورسات التعرف على الانماط ارشح كورسين كبداية 
الكورس الاول بتاع دكتور وليد يوسف 
http://www.helwan.edu.eg/…/Dr.…/HTML/PatternRecognition.html 
الكورس التانى بتاع دكتور ياسر ابو مصطفى دكتور فى جامعة كالتك 
Learning from Data
https://work.caltech.edu/telecourse.html 
الاتنين كويسين جدا وطريقتهم بسيطة دكتور ياسر اسهل شوية من دكتور وليد بس انا بفضل دكتور وليد فى المحتوى..
علاقة الكلام اللى فوق بال Big Data
هنشرحها فى بوست تانى عشان البوست هيطول اكتر من كده…
بالتوفيق 🙂
لو فى اخطاء فى البوست او حد حابب يضيف انا بعتذر عنها وياريت يعرفنى عشان اصلحها والكل يستفيد
تحديث من احد الاصدقاء 
لو حد حابب الجزء النظري والتطبيقي :
1) كورس جامعة ستانفورد ع كورسيرا وبيستخدم matlab 
https://www.coursera.org/learn/machine-learning
2)في specialization ع كورسيرا ودي بتستخدم الادوات دي python,graphlab and ipython notebook 
وممكن برضوا تستخدم ادوات تانيه زي ماتحب زي panda ,scikitlearn 
https://www.coursera.org/specializations/machine-learning
عباره عن مجموعة من الكورسات (regression ,classification,clustering,recommendation ,Capstone: An Intelligent Application with Deep Learning)
اكثر مايميزه انهم بيستخدموا طريقه في الشرح مختلفه بيسموها case-study بالطريقه دي بيحاولوا يقللوا التعقيد بانهم يدوا امثله عمليه من الحياه وتبدا تشتغل معاها ,مثال regression—> predicting house prices

Posted By: Moustafa Mahmoud