import urllib2
import json
import pandas as pd


courses_response = urllib2.urlopen('https://api.coursera.org/api/catalog.v1/courses?fields=shortName,name,language&includes=universities,categories')
courses_data = json.load(courses_response)
courses_data = courses_data['elements']


courses_data[0]

{u'id': 2163,
 u'language': u'en',
 u'links': {u'categories': [8, 10, 19, 20], u'universities': [65]},
 u'name': u'The Land Ethic Reclaimed: Perceptive Hunting, Aldo Leopold, and Conservation',
 u'shortName': u'perceptivehunting'}


universities_response = urllib2.urlopen('https://api.coursera.org/api/catalog.v1/universities?fields=name,locationCountry')
universities_data = json.load(universities_response)
universities_data = universities_data['elements']


universities_data[0]

{u'id': 234,
 u'links': {},
 u'locationCountry': u'CN',
 u'name': u"Xi'an Jiaotong University",
 u'shortName': u'xjtu'}


categories_response = urllib2.urlopen('https://api.coursera.org/api/catalog.v1/categories')
categories_data = json.load(categories_response)
categories_data = categories_data['elements']


categories_data[0]

{u'id': 5, u'links': {}, u'name': u'Mathematics', u'shortName': u'math'}


courses_df = pd.DataFrame()


courses_df['course_name'] = map(lambda course_data: course_data['name'], courses_data)
courses_df['course_language'] = map(lambda course_data: course_data['language'], courses_data)
courses_df['course_short_name'] = map(lambda course_data: course_data['shortName'], courses_data)
courses_df['categories'] = map(lambda course_data: course_data['links']['categories'] if 'categories' in course_data['links'] else [], courses_data)
courses_df['universities'] = map(lambda course_data: course_data['links']['universities'] if 'universities' in course_data['links'] else [], courses_data)


courses_df.head()


universities_df = pd.DataFrame()
universities_df['university_id'] = map(lambda university_data: university_data['id'], universities_data)
universities_df['university_name'] = map(lambda university_data: university_data['name'], universities_data)
universities_df['university_location_country'] = map(lambda university_data: university_data['locationCountry'], universities_data)


universities_df = universities_df.set_index('university_id')


universities_df.head()


categories_df = pd.DataFrame()
categories_df['category_id'] = map(lambda category_data: category_data['id'], categories_data)
categories_df['category_name'] = map(lambda category_data: category_data['name'], categories_data)


categories_df = categories_df.set_index('category_id')


categories_df.head()


def map_ids_names(ids_array, df, object_name):
    names_array = []
    for object_id in ids_array:
        try:
            names_array.append(df.loc[object_id][object_name])
        except:
            continue
    return names_array


map_ids_names([4,5,15,16], categories_df, 'category_name')

[u'Information, Tech & Design',
 u'Mathematics',
 u'Engineering',
 u'Statistics and Data Analysis']


map_ids_names([234], universities_df, 'university_name')

[u"Xi'an Jiaotong University"]


courses_df['categories_name'] = courses_df.apply(lambda row: map_ids_names(row['categories'], categories_df, 'category_name'), axis=1)
courses_df['universities_name'] = courses_df.apply(lambda row: map_ids_names(row['universities'], universities_df, 'university_name'), axis=1)


courses_df['course_url'] = 'https://www.coursera.org/course/' + courses_df['course_short_name']


courses_df.head()


def get_social_metrics(url, api_key):
    sharedcount_response = urllib2.urlopen('https://free.sharedcount.com/?url=' + url + '&apikey=' + api_key)
    return json.load(sharedcount_response)


SHAREDCOUNT_API_KEY = 'XXXXXXXXXXXXXXXX'


courses_df['sharedcount_metrics'] = map(lambda course_url: get_social_metrics(course_url, SHAREDCOUNT_API_KEY), courses_df['course_url'])


courses_df['twitter_count'] = map(lambda sharedcount: sharedcount['Twitter'], courses_df['sharedcount_metrics'])
courses_df['linkedin_count'] = map(lambda sharedcount: sharedcount['LinkedIn'], courses_df['sharedcount_metrics'])
courses_df['facebook_count'] = map(lambda sharedcount: sharedcount['Facebook']['total_count'], courses_df['sharedcount_metrics'])


courses_df.head()


cols_to_show = ['course_name', 'universities_name', 'categories_name', 'twitter_count', 'linkedin_count', 'facebook_count']
#Get English courses
query = courses_df[courses_df['course_language'] == 'en']
#Sort the courses by twitter count and get the top 10 courses
query = query.sort('twitter_count', ascending=0).head(10)
query[cols_to_show]


#Get English courses
query = courses_df[courses_df['course_language'] == 'en']
#Filter the "Statistics and Data Analysis" courses
query = query[query['categories_name'].map(lambda categories_name: 'Statistics and Data Analysis' in categories_name)]
#Sort the courses by twitter count and get the top 10 courses
query = query.sort('twitter_count', ascending=0).head(10)
query[cols_to_show]

	course_name	course_language	course_short_name	categories	universities
0	The Land Ethic Reclaimed: Perceptive Hunting, ...	en	perceptivehunting	[8, 10, 19, 20]	[65]
1	Contraception: Choices, Culture and Consequences	en	contraception	[3, 8]	[10]
2	Introduction to Computational Arts: Processing	en	compartsprocessing	[1, 4, 18, 22]	[117]
3	Introduction to Programming with MATLAB	en	matlab	[12, 15]	[37]
4	Experimentation for Improvement	en	experiments	[4, 5, 15, 16]	[148]

	university_name	university_location_country
university_id
234	Xi'an Jiaotong University	CN
120	University of New Mexico	US
10	University of California, San Francisco	US
56	University of California, Santa Cruz	US
24	Hebrew University of Jerusalem

	category_name
category_id
5	Mathematics
10	Biology & Life Sciences
24	Chemistry
25	Energy & Earth Sciences
14	Education

	course_name	course_language	course_short_name	categories	universities	categories_name	universities_name	course_url
0	The Land Ethic Reclaimed: Perceptive Hunting, ...	en	perceptivehunting	[8, 10, 19, 20]	[65]	[Health & Society, Biology & Life Sciences, Fo...	[University of Wisconsin–Madison]	https://www.coursera.org/course/perceptivehunting
1	Contraception: Choices, Culture and Consequences	en	contraception	[3, 8]	[10]	[Medicine, Health & Society]	[University of California, San Francisco]	https://www.coursera.org/course/contraception
2	Introduction to Computational Arts: Processing	en	compartsprocessing	[1, 4, 18, 22]	[117]	[Computer Science: Theory, Information, Tech &...	[State University of New York]	https://www.coursera.org/course/compartsproces...
3	Introduction to Programming with MATLAB	en	matlab	[12, 15]	[37]	[Computer Science: Software Engineering, Engin...	[Vanderbilt University]	https://www.coursera.org/course/matlab
4	Experimentation for Improvement	en	experiments	[4, 5, 15, 16]	[148]	[Information, Tech & Design, Mathematics, Engi...	[McMaster University]	https://www.coursera.org/course/experiments

	course_name	course_language	course_short_name	categories	universities	categories_name	universities_name	course_url	sharedcount_metrics	twitter_count	linkedin_count	facebook_count
0	The Land Ethic Reclaimed: Perceptive Hunting, ...	en	perceptivehunting	[8, 10, 19, 20]	[65]	[Health & Society, Biology & Life Sciences, Fo...	[University of Wisconsin–Madison]	https://www.coursera.org/course/perceptivehunting	{u'StumbleUpon': 0, u'Reddit': 0, u'Delicious'...	92	1	1032
1	Contraception: Choices, Culture and Consequences	en	contraception	[3, 8]	[10]	[Medicine, Health & Society]	[University of California, San Francisco]	https://www.coursera.org/course/contraception	{u'StumbleUpon': 0, u'Reddit': 0, u'Delicious'...	199	3	1704
2	Introduction to Computational Arts: Processing	en	compartsprocessing	[1, 4, 18, 22]	[117]	[Computer Science: Theory, Information, Tech &...	[State University of New York]	https://www.coursera.org/course/compartsproces...	{u'StumbleUpon': 0, u'Reddit': 0, u'Delicious'...	168	1	1009
3	Introduction to Programming with MATLAB	en	matlab	[12, 15]	[37]	[Computer Science: Software Engineering, Engin...	[Vanderbilt University]	https://www.coursera.org/course/matlab	{u'StumbleUpon': 0, u'Reddit': 0, u'Delicious'...	1	0	12
4	Experimentation for Improvement	en	experiments	[4, 5, 15, 16]	[148]	[Information, Tech & Design, Mathematics, Engi...	[McMaster University]	https://www.coursera.org/course/experiments	{u'StumbleUpon': 0, u'Reddit': 0, u'Delicious'...	48	122	314

Adil Moujahid

Published

Data Mining Coursera for Popular Courses with Python

1. Getting courses data¶

2. Structuring the data¶

2.1. Putting the data into Pandas DataFrames¶

2.2. Mapping ids with the corresponding names¶

2.3. Adding course URLs to the data¶

4. Querying the data¶

4.1. Getting the top 10 most popular English courses by Twitter count¶

4.1. Getting the top 10 most popular English courses in "Statistics and Data Analysis" by Twitter count¶

Conclusion¶

	course_name	universities_name	categories_name	twitter_count	linkedin_count	facebook_count
428	Gamification	[University of Pennsylvania]	[Information, Tech & Design, Business & Manage...	10302	8358	23322
209	Functional Programming Principles in Scala	[École Polytechnique Fédérale de Lausanne]	[Computer Science: Software Engineering]	6712	699	9922
389	Machine Learning	[Stanford University]	[Statistics and Data Analysis, Computer Scienc...	5792	306	21879
321	Cryptography I	[Stanford University]	[Computer Science: Theory, Computer Science: S...	4367	8358	15066
258	Social Network Analysis	[University of Michigan]	[Information, Tech & Design, Computer Science:...	3895	39	10315
857	Principles of Reactive Programming	[École Polytechnique Fédérale de Lausanne]	[Computer Science: Software Engineering]	3216	8358	2739
761	Think Again: How to Reason and Argue	[Duke University]	[Humanities , Teacher Professional Development]	2950	160	0
685	Model Thinking	[University of Michigan]	[Economics & Finance, Humanities ]	2721	370	10485
23	An Introduction to Interactive Programming in ...	[Rice University]	[Computer Science: Software Engineering]	2630	8358	430
33	E-learning and Digital Cultures	[The University of Edinburgh]	[Education]	2629	8358	5186

1. Getting courses data¶

2. Structuring the data¶

2.1. Putting the data into Pandas DataFrames¶

2.2. Mapping ids with the corresponding names¶

2.3. Adding course URLs to the data¶

3. Getting social sharing counts¶

3.1. Getting social counts from sharedcount.com¶

3.2. Getting social counts using the sharedcount.com API¶

4. Querying the data¶

4.1. Getting the top 10 most popular English courses by Twitter count¶

4.1. Getting the top 10 most popular English courses in "Statistics and Data Analysis" by Twitter count¶

Conclusion¶