Программирование Викиданных/field of work (math)

Материал из Викиверситета

Постановка цели[править]

Цели:

1. На основе викиданных выявить наиболее популярные области, которыми занимались/занимаются (российские?) математики и определить их взаимосвязь.

Задачи:

  • Заполнить в ВД у персон такие свойства как "field of work", "occupation", "country of citizenship".
  • Написать необходимые SPARQL-запросы.
  • На основе полученных результатов составить таблицу пересечений наиболее популярных областей математики друг с другом.

2. Сравнить рейтинг ученого и количество изучаемых им наук. Определить зависимость этих двух характеристик.

Задачи:

  • Заполнить таблицу с рейтингом ученых.
  • Написать SPARQL-запрос, который считает количество изучаемых наук математика.
  • Сравнить.


+ связь возраста и наград в разных областях (возможно, эти вопросы можно будет передать Дмитрию):

  1. Определить возраст (min, max, avg) получения первой награды. Меняется ли и как меняется этот возраст с каждым десятилетием?
  2. Работников каких областей математики награждают больше, чаше? Можно ли выделить разные эпохи в математике по превалирующим наградам в разных областях?
  3. Какие регионы чаще награждают?
  4. Выпускников каких вузов чаще награждают?

Задачи[править]

  • Дано: математик и свойство Викиданных ("Область математики", "field of work").
  • Найти области математики, которой занимался математик. Извлечь: (1) область математики.

Пример:

#added 2016-11
#Get 'field of work` of some person
SELECT ?work ?workLabel
WHERE
{
    wd:Q1322048 wdt:P101 ?work.
    SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}

SPARQL query 1 Results:


  • Дано: поле описания: "Russian mathematician"; свойство Викиданных: "field of work".
  • Найти: области математики, которыми занимались российские математики. Извлечь: (1) имя математика, (2) field of work.

Пример:

SELECT ?item ?label ?field_of_work ?field_of_workLabel
WHERE
{
  	?item schema:description "Russian mathematician"@en.
	?item wdt:P101 ?field_of_work.
    ?item rdfs:label ?label.
     SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
          ?item rdfs:label ?label.
         FILTER(LANG(?label) = "ru")
  }

SPARQL query 2221 Results;


Сбор статистики по научным областям[править]

  • Дано: свойства Викиданных ("field of work", "date of birth", "date of death"); поле описания: "Russian mathematician".
  • Найти: области математики, которыми занимались российские математики. Извлечь: (1) имя математика, (2) field of work, (3) age.

Пример:

SELECT ?item ?label ?field_of_work ?field_of_workLabel   ?age
WHERE
{
	?item schema:description "Russian mathematician"@en.
    ?item wdt:P101 ?field_of_work. 
    ?item wdt:P569 ?dob . # date of birth
 	?item wdt:P570 ?dod . # date of death
 		BIND(YEAR(?dod)-YEAR(?dob) as ?age) #age
          SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
          ?item rdfs:label ?label.
          FILTER(LANG(?label) = "ru").
  }

SPARQL query 1493 Results

Построить график: Display >> Graph builder >> Ось х: field_of_work или occup; ось у: age.

Уточнение и варианты поиска математиков[править]

  • список персон с указанием, что занимается математикой (SPARQL query): 3830 записей (математики всего мира).
    ?item wdt:P106 wd:Q170790. # occupation is 'mathematician'
    
  • Способ выбора персон: (1) фильтр по "country of citizenship" Россия или СССР или Российская империя, (2) область занятий - математика.(SPARQL query): 3186 записей.
    { ?item wdt:P27 wd:Q34266 } UNION # country of citizenship Russian Empire
    { ?item wdt:P27 wd:Q15180 } UNION # country of citizenship  Soviet Union
    { ?item wdt:P27 wd:Q159 } # country of citizenship Russia

Сортировка[править]

  • Поиск персон, у которых в "occupation" указанo "mathematician" и сортировка по "field of work"

SPARQL query

  • Поиск персон, у которых в "occupation" указанo "mathematician" и сортировка по "occupation" (т.е. чем они занимались помимо "mathematician"):

SPARQL query

Сортировка по "field of work"[править]

SELECT ?field_of_workLabel (COUNT(?item) AS ?count)
WHERE
{
	?item schema:description "Russian mathematician"@en.
  	?item wdt:P101 ?field_of_work.
	SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
GROUP BY ?field_of_workLabel

SPARQL query

Близость наук[править]

Дано:

  • Математические предметы а и b;
  • S(a,b) - число ученых, занимающихся предметами a и b;
  • f(a) - число ученых, занимающихся предметом а;
  • f(b) - число ученых, занимающихся предметом b.

Доказать:

  • S(a,b) не является метрикой.
  • S(a,b) < f(a)+f(b)
  • S(a,b) ≤ min(f(a),f(b))


Необходимо:

  • Список наук и количество занятых в них ученых.

В мире: SPARQL query.
В России: SPARQL query.

  • Пересечения этих наук по персонам

Рассмотрим на конкретном примере: возьмем такие field of work как "probability theory" (Q5862903) и "graph theory" (Q131476) и выведем список математиков, которые были заняты в этих областях: SPARQL query 3 Results

Возьмем наиболее популярные области в математике во всём мире и составим всевозможные попарные их комбинации, чтобы посмотреть чему равна величина S(a,b), где a и b рассматриваемые науки. Результаты можно увидеть в таблице:



Пояснения к таблице:
В ячейке желтого цвета число слева означает, что 11 человек занимаются одновременно предметом T(топология) и предметом GpT(теория графов) во всём мире(М), а число справа в этой же ячейке означает, что всего 1 человек в России(Р) занимается этими предметами одновременно. То есть, в мире S(a, b) = 11. В России S(a, b) = 1.
f(n) - число ученых, занимающихся предметом n.
На главной диагонали стоит сумма пересечений какой-либо науки со всеми остальным.
Голубым цветом отмечено число пересечений больше 20.

Некоторые выводы:

  • Наиболее изучаемой областью во всём мире является теория чисел. В России - математический анализ.
  • Среди математиков, занимающихся теорией чисел, наиболее популярны такие области как математический анализ (35 человек в мире, из них 17 из России), комбинаторика (23 в мире) и алгебра(35 в мире, из них 23 из России).
  • Изучающие математический анализ, также изучают теорию вероятностей (27 человек в мире, из них 19 из России), геометрию (20 человек в мире, их них 9 из

России), дифференциальные уравнения (33 человека и все они из России), функциональный анализ (37 в мире и только 10 из России) и теорию функций(21 человек, все из России).

  • Математики, изучающие топологию, скорее всего занимаются и геометрией (20 человек в мире, 9 из России).
  • Среди математиков, занимающихся комбинаторикой, 31 человек в мире занимается теорией графов и только 4 из России.
  • Среди тех, кто занят в области геометрии 29 человек в мире и 22 человека из России заняты и в области алгебры.
  • Наибольшее число пересечений со всеми областями во всём мире у такой науки как математический анализ, а в России у дифференциальный уравнения.
  • Меньше всего пересечений со всеми областями (наименее изучаемые с другими науками) во всём мире и в России: математическая логика, теория множеств,алгебраическая геометрия, теория графов и теория групп.
  • Теория графов пересекается с другими областями во всём мире 54 раза, а в России всего 7.
  • Комбинаторика пересекается с другими областями во всём мире 111 раз, а в России всего 32.
Визуализация (Gephi)

Дать пример формата файла с графом:

  • вершины - названия наук,
  • ребро указывает на существование учёных, занимающихся двумя науками (вершины, инцидентные ребру); сила связи (вес ребра) - число таких учёных.


Рейтинг ученых[править]

1. Напишем SPARQL-запрос, который выводит список математиков и количество изучаемых ими наук:

SELECT ?itemLabel (COUNT(?field_of_work) AS ?count)
WHERE
{
	?item schema:description "Russian mathematician"@en.
  	?item wdt:P101 ?field_of_work.
	SERVICE wikibase:label { bd:serviceParam wikibase:language "ru". }
}
GROUP BY ?itemLabel

SPARQL query

Запрос, выводящий список математиков, которые занимались только одной математической наукой. Рассмотрим на конкретном примере: возьмем "number theory": SPARQL query 12 Results

2. Построим гистограмму, отражающую число ученых с числом "field of work" = n, где n - количество изучаемых предметов одной персоной:










Причем, среди 424 человек в первом столбце у 101 человека в свойстве "field of work" указано просто "mathematics"
Такую же гистограмму построим и для математиков всего мира:










Посмотрим процентное соотношение ученых, изучающих определенное количество наук от общего числа ученых в России и в мире:











Выводы, которые можно сделать на основе трех полученных гистограмм:

  1. В мире и в России большая часть ученых занимается только одной наукой.
  2. Чем больше наук, тем меньше занятых в них ученых.(?)
  3. 6, 9, 11 и 12 науками занимаются российские математики.
  4. 3, 4, 5 и 7 науками занимаются в основном математики из России.
  5. Если сложить все процентные результаты, то можно увидеть, что примерно у 25% математиков мира не указаны научные области/область.
  6. Процент ученых, занятых в одой области в мире больше чем в России, с остальным количеством областей наоборот.

Ссылки[править]