Where can I find large datasets open to the public?

Q. Where can I find large datasets open to the public?

– Cross-disciplinary data repositories, data collections and data search engines:

  1. https://www.kaggle.com/datasets
  2. http://www.assetmacro.com
  3. http://usgovxml.com
  4. http://aws.amazon.com/datasets
  5. http://databib.org
  6. http://datacite.org
  7. http://figshare.com
  8. http://linkeddata.org
  9. http://reddit.com/r/datasets
  10. http://thewebminer.com/
  11. http://thedatahub.org alias http://ckan.net
  12. http://quandl.com
  13. http://www.growmeme.com/overview
  14. http://www.kdnuggets.com/datasets/index.html
  15. http://enigma.io
  16. http://www.ufindthem.com/
  17. http://NetworkRepository.com
  18. http://MLvis.com
  19. http://www.growmeme.com/overview
  20. http://data.opendatasoft.com
  21. http://gdeltproject.org/data.html


– Single datasets and data repositories

1- http://archive.ics.uci.edu/ml/
2- http://crawdad.org/
3- http://data.austintexas.gov
4- http://data.cityofchicago.org
5- http://data.govloop.com
6- http://data.gov.uk/
7- http://data.gov.in
8- http://data.medicare.gov
9- http://data.seattle.gov
10- http://data.sfgov.org
11- http://data.sunlightlabs.com
12- https://datamarket.azure.com/
13- http://developer.yahoo.com/geo/g
14- http://econ.worldbank.org/datasets
15- http://en.wikipedia.org/wiki/Wik
16- http://factfinder.census.gov/ser
17- http://ftp.ncbi.nih.gov/
18- http://gettingpastgo.socrata.com
19- http://googleresearch.blogspot.c...
20- http://books.google.com/ngrams/
21- http://medihal.archives-ouvertes.fr
22- http://public.resource.org/
23- http://rechercheisidore.fr
24- http://snap.stanford.edu/data/in
25- http://timetric.com/public-data/
26- https://wist.echo.nasa.gov/~wist
27- http://www2.jpl.nasa.gov/srtm
28- http://www.archives.gov/research
29- http://www.bls.gov/
30- http://www.crunchbase.com/
31- http://www.dartmouthatlas.org/
32- http://www.data.gov/
33- http://www.datakc.org
34- http://dbpedia.org
35- http://www.delicious.com/jbaldwi
36- http://www.faa.gov/data_research/
37- http://www.factual.com/
38- http://research.stlouisfed.org/f
39- http://www.freebase.com/
40- http://www.google.com/publicdata
41- http://www.guardian.co.uk/news/d
42- http://www.infochimps.com
43- http://www.kaggle.com/
44- http://build.kiva.org/
45- http://www.nationalarchives.gov.
46- http://www.nyc.gov/html/datamine
47- http://www.ordnancesurvey.co.uk/
48- http://www.philwhln.com/how-to-g
49- http://www.imdb.com/interfaces
50- http://imat-relpred.yandex.ru/en
51- http://www.dados.gov.pt/pt/catal
52- http://knoema.com
53- http://daten.berlin.de/
54- http://www.qunb.com
55- http://databib.org/
56- http://datacite.org/
57- http://data.reegle.info/
58- http://data.wien.gv.at/
59- http://data.gov.bc.ca
60- https://pslcdatashop.web.cmu.edu/
61- http://www.icpsr.umich.edu/icpsrweb/CPES/ – Collaborative 
62- http://www.dati.gov.it
63- http://dati.trentino.it
64- http://www.databagg.com/
65- http://networkrepository.com
66- http://www.grid.unep.ch/index.php?lang=en
Source : Quora

Contributions from group members:
1- http://academictorrents.com/

By Hatem Kotb
Below are some of the links I found that contain data sets for those who want to practice. Some of them are public city data sets filtered by type (Education, Health, Transport…etc.)

  1. http://open.canada.ca/en
  2. http://www.eea.europa.eu/data-and-maps/
  3. http://homepage.data-planet.com/
  4. https://inventory.data.gov/dataset
  5. http://www.google.com/publicdata/directory
  6. http://www.europeandataportal.eu/
  7. https://nycopendata.socrata.com/
  8. https://www.quandl.com/
  9. https://www.quora.com/Where-can-I-find-large-datasets-open-…
  10. https://www.reddit.com/r/datasets
  11. https://data.sfgov.org/
  12. https://archive.ics.uci.edu/ml/datasets.html
  13. https://data.gov.uk/
  14. http://www.data.gov/education/
  15. http://www.data.gov/
  16. http://www.liquidasset.com/winedata.html
  17. http://finance.yahoo.com/q/hp?s=YHOO
  18. http://toddwschneider.com/…/analyzing-1-1-billion-nyc-taxi…/
  19. http://wiki.dbpedia.org/Datasets
  20. http://archive.ics.uci.edu/ml/datasets.html
  21. http://support.minitab.com/en-us/datasets/
  22. http://apps.who.int/gho/data/node.main
  23. http://datasociety.co/data/
  24. https://data.cityofchicago.org/…/Crimes-2001-to-p…/ijzp-q8t2
  25. http://www.baseball-reference.com/
  26. https://crudata.uea.ac.uk/cru/data/temperature/
  27. http://www.esrl.noaa.gov/gmd/ccgg/data-products.html
  28. http://nces.ed.gov/pubsearch/pubsinfo.asp?pubid=2011038

#datasets #data

Posted By : Mohamed Abuelanin

How to Start Big Data or Data Science

شباب اى حد بيسأل نبدأ منين لو حابين نذاكر Big data or Data Science
البوست ده ان شاء الله هيجاوب عليكم…

دلوقتى معظم الناس بره بتشتغل مش انك تاخد كورسات مختلفة وانت تحاول تجمع الفكرة لا دلوقتى فى تخصصات كاملة بتدرس على النت وهو بيحطلك المنهج اللى يخليك متخصص فيه وبيبدأ معاك من الصفر ولو في كورسات معتمد عليها هيقولك ويحطلك اللينكات بتاعتها وممكن تاخد شهادة فى الاخر انك اجتزت التخصص ده.

هحط شوية تخصصات هتبدأ الشهر ده على كورسيرا. وبتتكرر كل شهر تقريبا. بعض الكورسات حطيت التفاصيل بتاعتها كل كورس موجود تقريبا مدته شهر ومتوسط اقصى كورس مذاكرة هتكون 7:9 ساعات اسبوعي
وياريت لو حد هيبدأ او شغال ممكن يعرفنا عشان ممكن نعمل ورش عمل في التخصصات ونتشارك المحتوى.
فى بوست تعليق على البوست ده ياريت اللى حابب يبدأ يقرأه برده 

1-Big Data Specialization

**Introduction to Big Data
**Introduction to Big Data Analytics
**Machine Learning With Big Data
**Introduction to Graph Analytics
Big Data – Capstone

2- Data Science Specialization.
One of the best Data Science Specialization from Johns Hopkins University
I working in this specialization now. It starts from “zero knowledge”

××-The Data Scientist’s Toolbox
××-R Programming
××-Getting and Cleaning Data
××-Exploratory Data Analysis
××-Reproducible Research
××-Statistical Inference
××-Regression Models
××-Practical Machine Learning
××-Developing Data Products

3-Data Science at Scale Specialization
From George Washington University

**Data Manipulation at Scale: Systems and Algorithms
**Practical Predictive Analytics: Models and Methods
**Communicating Results: Visualization, Ethics, Reproducibility
**Data Science at Scale – Capstone Project

4-Machine Learning Specialization
From George Washington University

**Machine Learning Foundations: A Case Study Approach
**Clustering & Retrieval
**Recommender Systems & Dimensionality Reduction
**Machine Learning Capstone: An Intelligent Application with Deep Learning

5-Data Warehousing for Business Intelligence Specialization

6-Data Analysis and Interpretation Specialization

7-Internet of Things Specialization

8-Internet of Things and Embedded Systems Specialization

learn Data Science by doing

learn Data Science by doing…
Here is a list of hands-on tutorials. Collected under a condition that it contains end to end practical steps starting from a data set and ending with the data science deliverable…

Have a joyful learning…

Kaggle solution to competition (Denoising Dirty Documents – Image Processing)

All parts here:


Kaggle Solution for Second Annual Data Science Bowl: Automatically Finding the Heart Location in an MRI Image

Part 1:

Part 2:

Part 3:


Kaggle Titanic Solution in R

and in Python


Predicting SAT scores for New York Schools


Diagnosing Heart Diseases 


Analytics Vidhya Case Study: Optimize Pricing for online vendor:


Learn Analytics With Complete Case Study:
Part 1:
Part 2:


Conjoint analysis with R


Kaggle solution: Text analytics:


Update: 28-July-2016:
Spam filtering using Python:


Open source list of tutorials with links end-to-end:


Complete series for Kaggle competition 


Open source index for Data Science practical lessons:


Update 23rd April – 2017:

Kaggle All State Purchase Prediction:

Solution in R:

Solution in Python:


Kaggle MLSP Birds Classification:



Kaggle Galaxy Zoo Challenge:

Solution in Python:


Kaggle Large Scale Hierarchical Text Classification:

Solution in C++ (WoW – 3rd Place Winner):


Another great list of competitions with answers:


To be continued…
Please share your links and I’ll add it…

Posted By: Ahmed Zareef

Difference Between Big Data and Machine Learning (Simplified)

البوست ده هو بغرض توضيح العلاقات المتشابكة بين Machine Learning and Big Data
وازاى ممكن حد يبدأ يتعلم ال Machine Learning 
والعلوم القائمة لعيها 
وده بسبب انى ملاحظ ان الموضوع متشابك وفى خلط كبير على الناس…
طيب تعالوا نبسط الموضوع فى الاول نعتبر ان مفيش حاجة اسمها Big data
احنا فى الاساس شغالين على البيانات وتنظيمها وتحليلها ومن ثمّ اننا نحاول نطلع معلومات وتوقعات من البيانات تمام؟
دايما كان اساتذتنا فى الكلية بيقولوا ايه لو عايز تلغبط الناس ومش عايز توضح الحقيقة اوعى ان تضع مصطلح وتضع له تعريف واضح حتى لا يفهمه الناس ببساطة ومن هنا يمكن لكل فرد ان يضع ما يريده فى هذا العلم…
طيب حتى لا يختلط الامر فى اكتر من معنى ومصطلح بيُسمى بيهم ال Machine Learning

1- Statistical Learning وده اغلب الناس اللى خلفيتهم رياضية وبيشتغلوا فى المجال على الداتا بيسموه كده وغالبية علماء المجال القدام بيسموه كده
2-Machine Learning وده غالبية الناس اللى خلفيتهم هندسية بيطلقوا عليه المصطلح ده 
3- Pattern Recognition وده المصطلح اللى بيسمى بيه الناس بتوع علوم الحاسب 
التسمية ده كان احد الاساتذة شرحها وفصلها فى محاضرة بس مش وقتها هنا بس حبيت اوضحها فى الاول عشان لا يختلط الامر…
التعريف اللى موجود على ويكبيديا مٌعبر جدا وواضح 
Machine learning: Explores the study and construction of algorithms that can learn from and make predictions on data. Such algorithms operate by building a model from example inputs in order to make data-driven predictions or decisions, rather than following strictly static program instructions.

طيب نُكمل الموضوع
اى حد بيجيلوا بيانات بيدأ يظبطها وبعد كده يعرضها بصورة توضيحية وبعد كده بيبقى قدامنا طريفين لا ثالث لهما Supervised Learning and Un Supervised Learning 
هحاول ابقى اشرحهم بعدين تفصيليا 
المهم اننا داخل الطرق ده بيبقى عندنا عدة اهداف واضحة بيختلفوا على حسب طبيعة المشكلة اللى بنواجهها 
1- بناء دالة لما ندخل ليها البيانات من غير لما نعرف اى الاقسام تنتمى اليها الدالة ده بتقولنا لوحدها ده تنتنمى لكذا او لكذا مثال
عندنا آشعة بتقول هل فى ربنا يعافينا جميعاً سرطان فى الاشعة ده ولا لأ 
ايه الخطواط بأختصار ؟
*بناخد جزء من الاشعة ده بنكون عارفين مسبقا هى فيها ولا لأ ونعمل دالة وبعد كده لما ندخل آشعة جديدة الدالة لوحدها تقولنا الاشعة فيها سرطان ولا لأ يبقى القرار هنا تجاه حاجتين فيها ولا لأ Yes or No
وده بيسمى Classification 
Classification is a general process related to categorization,
2- اننا يكون عندنا بيانات برده بس المره ده عايزين نستنتج بعض المتغيرات فى الدالة ده اعتمادا على قيم وقياسات عشوائية عشان نقدر نبنى دالة وفيه كلام كتير هو مش بناء فقط هو ازاى نحليل الانحدار فى الداتا وبناء عليه نقدر بعدين نستنتج الى “الى اى مدى ” البيانات ده تنتمى الى القسم ده بمعنى لو عندى بيانات مجهولة بنقول بنسبة كام فى المية البيانات ده تنتمى الى القسم ده يعنى فيها احتمالات واحصاء مش قرار yes or no وهو ما يسمى Regression طبعا فى تفاصيل انا بس بقول كلام عام للتوضيح
3-هو انك عندك داتا بس متعرفش هى متقسمة ازاى وبتحاول تقسمها اقسام وهو ما يسمى Clustering

احد العلماء بيقول مقولة جميلة 
“We are drowning in data, but starving for knowledge!” (John Naisbitt, 1982) 
طيب نيجى للجزء المهم 
ايه علاقة الرياضيات والاحتمالات والاحصاء بالكلام اللى فوق 
كل حاجة فى الكون ليها نمط ودالة بتمشى عليها يعنى مثلا الزلزال العلماء لما درسوها وجدوا انها بتتبع دالة اسمها Gamma وعشان كده بنلاقى مثلا على كلوديرا ومواقع كتير يقولك اهم Probability Distributions 
وعشان كده دراستها من الحاجات اللى بتفيد حتى لو الداتا اللى بتدرسها لا ينطبق عليها اى من الحاجات ده انت بقى عندك الطريقة العلمية اللى تدرس بيها وتثبت صحة دراستك.
من هنا نيجى لأهمية الاحتمالات والاحصاء طبعا ده مثال فى اكتر من ذلك ولكن خلينا اقولك ان تقريبا لو درست احتمالات واحصاء هتلاقى معظم الخوارزميات بتاعة التعرف على الانماط او Machine Learning 
بالنسبة ليك ما هى الا استكمال لما درسته 
طيب ايه لازمة الرياضيات طبعا كل حاجة فى الاحتمالات والاحصاء هتحتاج فيها رياضيات عشان تثبت اللى انت شغال عليه وتفهمه غير الجبر الخطى ال Linear Algebra

طيب نيجى لأخر جزء ويعتبر الاهم للناس نبدأ منين 
طبعا انا مش خبير اوى بس هقول على وجهة نظرى

قبل لما ابدأ فى سرد الكورسات استاذنا دكتور وليد كان دايما يقولنا ان العلم بيتأخد من الكتب مفيش حاجة اسمها انا لاقيت ملف او pdf بيلخص الموضوع لازم نقرأ الكتاب ونثبت الاثبات بأيدينا ونحل التطبيقات او المسائل اللى فى اخر كل فصل لو معلملتش كده متقدرش تقول انك فهمت الموضوع حتى لو انت عارف الحل كده بدماغك لازم “يتكتب”

ونفكر ببيت الإمام الشافعى 
العِلمُ صَيدٌ والكِتابةُ قَيدُهُ — قَيِّدْ صيودكَ بالحِبالِ الواثِقَة 
فَمِن الحَماقَةِ أَنْ تَصيدَ غَزالَةً — وتَترُكها بَينَ الخَلائقِ طالِقةَ

طيب على البركة كده نبدأ نعرض الكورسات 
1-الاحتمالات والاحصاء انا ارشح الكورس بتاع دكتور وليد يوسف على اليوتيوب هنلاقيه فى اللينكات ده
والكتاب اللى الكورس بيدرس منه 
Mathematical Statistics and Data Analysis by John Rice .
الكتاب كنا اشتريناه من مكتبة بكة فى المعادى ب210ج تقريبا 
ياريت نحل الواجبات اللى موجودة على الموقع هنا 
2-الجبر الخطى Linear Algebra 
الكورس بتاع عالم كبير جدا اسمه جلبرت ستيرنج 
طبعا التصوير مش اوى بس واضح ومن اوائل الكورسات اللى اتصورت اونلاين وفعلا الكورس ده مفيش حد بيدرسه افضل من الراجل ده وكل حاجة موجودة على الموقع

3-التفاضل والتكامل فيه كتاب جميل لو حد حابب يراجع يعنى او فيه حاجة وقفت بتاع الكتاب ضخم مش محتاج تدوس فيه كله 

نيجى لما بعد ده انا شايف ان النقطة رقم 1 هى الاهم و 2 شوية الاخير على حسب مدى التعمق فى الموضوع
كورسات التعرف على الانماط ارشح كورسين كبداية 
الكورس الاول بتاع دكتور وليد يوسف 
الكورس التانى بتاع دكتور ياسر ابو مصطفى دكتور فى جامعة كالتك 
Learning from Data
الاتنين كويسين جدا وطريقتهم بسيطة دكتور ياسر اسهل شوية من دكتور وليد بس انا بفضل دكتور وليد فى المحتوى..
علاقة الكلام اللى فوق بال Big Data
هنشرحها فى بوست تانى عشان البوست هيطول اكتر من كده…
بالتوفيق 🙂
لو فى اخطاء فى البوست او حد حابب يضيف انا بعتذر عنها وياريت يعرفنى عشان اصلحها والكل يستفيد
تحديث من احد الاصدقاء 
لو حد حابب الجزء النظري والتطبيقي :
1) كورس جامعة ستانفورد ع كورسيرا وبيستخدم matlab 
2)في specialization ع كورسيرا ودي بتستخدم الادوات دي python,graphlab and ipython notebook 
وممكن برضوا تستخدم ادوات تانيه زي ماتحب زي panda ,scikitlearn 
عباره عن مجموعة من الكورسات (regression ,classification,clustering,recommendation ,Capstone: An Intelligent Application with Deep Learning)
اكثر مايميزه انهم بيستخدموا طريقه في الشرح مختلفه بيسموها case-study بالطريقه دي بيحاولوا يقللوا التعقيد بانهم يدوا امثله عمليه من الحياه وتبدا تشتغل معاها ,مثال regression—> predicting house prices

Posted By: Moustafa Mahmoud