Программирование Викиданных/field of work (math)
Постановка цели
[править]Цели:
1. На основе викиданных выявить наиболее популярные области, которыми занимались/занимаются (российские?) математики и определить их взаимосвязь.
Задачи:
- Заполнить в ВД у персон такие свойства как "field of work", "occupation", "country of citizenship".
- Написать необходимые SPARQL-запросы.
- На основе полученных результатов составить таблицу пересечений наиболее популярных областей математики друг с другом.
2. Сравнить рейтинг ученого и количество изучаемых им наук. Определить зависимость этих двух характеристик.
Задачи:
- Заполнить таблицу с рейтингом ученых.
- Написать SPARQL-запрос, который считает количество изучаемых наук математика.
- Сравнить.
+ связь возраста и наград в разных областях (возможно, эти вопросы можно будет передать Дмитрию):
- Определить возраст (min, max, avg) получения первой награды. Меняется ли и как меняется этот возраст с каждым десятилетием?
- Работников каких областей математики награждают больше, чаше? Можно ли выделить разные эпохи в математике по превалирующим наградам в разных областях?
- Какие регионы чаще награждают?
- Выпускников каких вузов чаще награждают?
Задачи
[править]- Дано: математик и свойство Викиданных ("Область математики", "field of work").
- Найти области математики, которой занимался математик. Извлечь: (1) область математики.
Пример:
- Объекты: Eliyahu Rips (Q1322048)
- Свойства: field of work (P101)
#added 2016-11
#Get 'field of work` of some person
SELECT ?work ?workLabel
WHERE
{
wd:Q1322048 wdt:P101 ?work.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
SPARQL query 1 Results:
- Дано: поле описания: "Russian mathematician"; свойство Викиданных: "field of work".
- Найти: области математики, которыми занимались российские математики. Извлечь: (1) имя математика, (2) field of work.
Пример:
- Свойство: field of work (P101); поле описания: "Russian mathematician"
SELECT ?item ?label ?field_of_work ?field_of_workLabel
WHERE
{
?item schema:description "Russian mathematician"@en.
?item wdt:P101 ?field_of_work.
?item rdfs:label ?label.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
?item rdfs:label ?label.
FILTER(LANG(?label) = "ru")
}
SPARQL query 2221 Results;
Сбор статистики по научным областям
[править]- Дано: свойства Викиданных ("field of work", "date of birth", "date of death"); поле описания: "Russian mathematician".
- Найти: области математики, которыми занимались российские математики. Извлечь: (1) имя математика, (2) field of work, (3) age.
Пример:
SELECT ?item ?label ?field_of_work ?field_of_workLabel ?age
WHERE
{
?item schema:description "Russian mathematician"@en.
?item wdt:P101 ?field_of_work.
?item wdt:P569 ?dob . # date of birth
?item wdt:P570 ?dod . # date of death
BIND(YEAR(?dod)-YEAR(?dob) as ?age) #age
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
?item rdfs:label ?label.
FILTER(LANG(?label) = "ru").
}
SPARQL query 1493 Results
Построить график: Display >> Graph builder >> Ось х: field_of_work или occup; ось у: age.
Уточнение и варианты поиска математиков
[править]- список персон с указанием, что занимается математикой (SPARQL query): 3830 записей (математики всего мира).
?item wdt:P106 wd:Q170790. # occupation is 'mathematician'
- Способ выбора персон: (1) фильтр по "country of citizenship" Россия или СССР или Российская империя, (2) область занятий - математика.(SPARQL query): 3186 записей.
{ ?item wdt:P27 wd:Q34266 } UNION # country of citizenship Russian Empire
{ ?item wdt:P27 wd:Q15180 } UNION # country of citizenship Soviet Union
{ ?item wdt:P27 wd:Q159 } # country of citizenship Russia
Сортировка
[править]- Поиск персон, у которых в "occupation" указанo "mathematician" и сортировка по "field of work"
- Поиск персон, у которых в "occupation" указанo "mathematician" и сортировка по "occupation" (т.е. чем они занимались помимо "mathematician"):
Сортировка по "field of work"
[править]SELECT ?field_of_workLabel (COUNT(?item) AS ?count)
WHERE
{
?item schema:description "Russian mathematician"@en.
?item wdt:P101 ?field_of_work.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
GROUP BY ?field_of_workLabel
Близость наук
[править]Дано:
- Математические предметы а и b;
- S(a,b) - число ученых, занимающихся предметами a и b;
- f(a) - число ученых, занимающихся предметом а;
- f(b) - число ученых, занимающихся предметом b.
Доказать:
- S(a,b) не является метрикой.
- S(a,b) < f(a)+f(b)
- S(a,b) ≤ min(f(a),f(b))
Необходимо:
- Список наук и количество занятых в них ученых.
В мире:
SPARQL query.
В России:
SPARQL query.
- Пересечения этих наук по персонам
Рассмотрим на конкретном примере: возьмем такие field of work как "probability theory" (Q5862903) и "graph theory" (Q131476) и выведем список математиков, которые были заняты в этих областях:
SPARQL query 3 Results
Возьмем наиболее популярные области в математике во всём мире и составим всевозможные попарные их комбинации, чтобы посмотреть чему равна величина S(a,b), где a и b рассматриваемые науки. Результаты можно увидеть в таблице:
Пояснения к таблице:
В ячейке желтого цвета число слева означает, что 11 человек занимаются одновременно предметом T(топология) и предметом GpT(теория графов) во всём мире(М), а число справа в этой же ячейке означает, что всего 1 человек в России(Р) занимается этими предметами одновременно. То есть, в мире S(a, b) = 11. В России S(a, b) = 1.
f(n) - число ученых, занимающихся предметом n.
На главной диагонали стоит сумма пересечений какой-либо науки со всеми остальным.
Голубым цветом отмечено число пересечений больше 20.
Некоторые выводы:
- Наиболее изучаемой областью во всём мире является теория чисел. В России - математический анализ.
- Среди математиков, занимающихся теорией чисел, наиболее популярны такие области как математический анализ (35 человек в мире, из них 17 из России), комбинаторика (23 в мире) и алгебра(35 в мире, из них 23 из России).
- Изучающие математический анализ, также изучают теорию вероятностей (27 человек в мире, из них 19 из России), геометрию (20 человек в мире, их них 9 из
России), дифференциальные уравнения (33 человека и все они из России), функциональный анализ (37 в мире и только 10 из России) и теорию функций(21 человек, все из России).
- Математики, изучающие топологию, скорее всего занимаются и геометрией (20 человек в мире, 9 из России).
- Среди математиков, занимающихся комбинаторикой, 31 человек в мире занимается теорией графов и только 4 из России.
- Среди тех, кто занят в области геометрии 29 человек в мире и 22 человека из России заняты и в области алгебры.
- Наибольшее число пересечений со всеми областями во всём мире у такой науки как математический анализ, а в России у дифференциальный уравнения.
- Меньше всего пересечений со всеми областями (наименее изучаемые с другими науками) во всём мире и в России: математическая логика, теория множеств,алгебраическая геометрия, теория графов и теория групп.
- Теория графов пересекается с другими областями во всём мире 54 раза, а в России всего 7.
- Комбинаторика пересекается с другими областями во всём мире 111 раз, а в России всего 32.
- Визуализация (Gephi)
Дать пример формата файла с графом:
- вершины - названия наук,
- ребро указывает на существование учёных, занимающихся двумя науками (вершины, инцидентные ребру); сила связи (вес ребра) - число таких учёных.
Рейтинг ученых
[править]1. Напишем SPARQL-запрос, который выводит список математиков и количество изучаемых ими наук:
SELECT ?itemLabel (COUNT(?field_of_work) AS ?count)
WHERE
{
?item schema:description "Russian mathematician"@en.
?item wdt:P101 ?field_of_work.
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru". }
}
GROUP BY ?itemLabel
SPARQL query
Запрос, выводящий список математиков, которые занимались только одной математической наукой. Рассмотрим на конкретном примере: возьмем "number theory":
SPARQL query 12 Results
2. Построим гистограмму, отражающую число ученых с числом "field of work" = n, где n - количество изучаемых предметов одной персоной:
Причем, среди 424 человек в первом столбце у 101 человека в свойстве "field of work" указано просто "mathematics"
Такую же гистограмму построим и для математиков всего мира:
Посмотрим процентное соотношение ученых, изучающих определенное количество наук от общего числа ученых в России и в мире:
Выводы, которые можно сделать на основе трех полученных гистограмм:
- В мире и в России большая часть ученых занимается только одной наукой.
- Чем больше наук, тем меньше занятых в них ученых.(?)
- 6, 9, 11 и 12 науками занимаются российские математики.
- 3, 4, 5 и 7 науками занимаются в основном математики из России.
- Если сложить все процентные результаты, то можно увидеть, что примерно у 25% математиков мира не указаны научные области/область.
- Процент ученых, занятых в одой области в мире больше чем в России, с остальным количеством областей наоборот.
Ссылки
[править]- Finn Årup Nielsen. Occupations of persons from Panama Papers // Blog. May 10, 2016. (Упорядочение множества персон (график Bubble) по их занятиям).
- Finn Årup Nielsen. The Wikidata scholarly profile page // Blog. September 30, 2016. (Обзор свойств Викиданных для описания персоны учёного).
- Elvira Kuznetsova (2017): The graph of the proximity of sciences to world scientists. figshare. DOI:10.6084/m9.figshare.4609495.v4.