Wednesday 16 December 2015

Цитируемость классиков русской литературы в базе данных Web of Science Core Collection

Вот уже более 50 лет база данных, созданная Юджином Гарфилдом, помогает учёным со всего мира определять влиятельность научных публикаций на основании их цитируемости другими научными работами. За эти более чем полвека Web of Science превратилась из инструмента для проведения научных исследований в мощный ресурс для оценки их результативности, применяемого правительствами, научными фондами и руководством исследовательских организаций для понимания тенденций в научных исследованиях, принятия решений об их развитии и финансировании.

При этом, исходная функция указателя научной цитируемости Web of Science – анализ цитатных связей между публикациями – представляет собой исследовательскую ценность, позволяя не только количественно оценить вклад в науку, сделанный той или иной научной статьёй, но и качественно отследить влияние научных идей на контекст последующих научных исследований.

Поскольку база данных Web of Science Core Collection индексирует все списки используемой литературы для всех индексируемых публикаций, у нас есть возможность не только увидеть, как результаты одних научных исследований, индексируемых в Web of Science, цитируются другими, тоже индексируемыми в Web of Science, но и оценить, как в этой базе данных цитируются материалы, которые в ней отсутствуют – например, чья-нибудь диссертация – или статья в журнале, который в силу строгости критериев отбора Web of Science не представляет для базы данных интереса – или, например, «Божественная Комедия» Данте Алигьери или «Война и Мир» Льва Толстого.

Научный мир в буквальном смысле «заболел» различного рода рейтингами: университетскими, страновыми (как публикуются и цитируются научные сотрудники в конкретной стране – очень достоверный и прозрачный способ оценить качество организации исследований), списками высокоцитируемых учёных (вы знали, что именно они и получают Нобелевские премии?) и так далее. В этой связи российская команда Thomson Reuters Intellectual Property & Science уже не первый год задавалась двумя вопросами: кто же из классиков литературы – самый цитируемый и как их литературные шедевры повлияли на ход научных исследований XX-XXI веков?

Анализ пристатейных списков используемой литературы подразумевает существенно больше ручной работы, чем подсчёт «классического» цитирования публикаций, уже индексируемых в Web of Science, которое происходит автоматически, поэтому мы довольно долго думали о том, с какой стороны подступиться к проблеме и как создать достаточно репрезентативную выборку писателей, иными словами – где провести черту между «классиками» и «неклассиками». За это время в России наступил год литературы, мы поняли, что начать можно с классиков русской литературы и что действовать надо сейчас или никогда. За основу была взята школьная программа по литературе, затем мы дополнили её ещё несколькими фамилиями вроде Пелевина, Сорокина и «не совсем русского» Набокова, после чего приступили к ручному поиску, фильтрации и подсчёту количества ссылок на различные их произведения при помощи функции Cited Reference Search, то есть, поиска по тем самым пристатейным библиографиям в Web of Science Core Collection.

Рейтинг авторов

Мы вручную отфильтровали однофамильцев с похожими инициалами, учли ссылки на большом количестве иностранных языков, вроде «KARAMAZOV NO KYODAI» по-японски или «GUERRA E PAZ» по-португальски. Имеет ли смысл в данном случае стремиться к 100%-ной достоверности итоговых результатов? Мы считаем, что нет, оцениваем погрешность измерений не более чем в 5%, более того – даже решили округлить результаты, отчего итоговый рейтинг стал только нагляднее. Ниже мы приводим рейтинг авторов.

1. Федор Достоевский (7 800 цитирований)
2. Лев Толстой (6 400)
3. Александр Пушкин (5 200)
4. Александр Солженицын (3 500)
5. Антон Чехов (3 100)
6. Николай Гоголь (2 350)
7. Иван Тургенев (2 250)
8. Максим Горький (2 100)
9. Осип Мандельштам (1420)
10. Делят, как ни странно, Анна Ахматова и Марина Цветаева (по 1350 ссылок)

Оценив цитируемость русских писателей, мы всё же не смогли обойти стороной иностранных классиков, чтобы хоть как-то сопоставить их влияние в научных кругах. Как уже упоминалось в начале отчёта, из-за обилия ручной работы анализ писателей всего мира, которых с определённой долей уверенности можно отнести к «классикам мировой литературы», займёт существенно больше времени и заслуживает проведения отдельного исследования, тем не менее, мы создали минимально возможную референтную группу из Шекспира, Данте Алигьери и Гёте, и вот что у нас получилось:

Шекспир: 34 000
Гёте: 18 000
Данте: 11 500

Важно отметить, что большинство (хотя и не все) расписываемых в Web of Science Core Collection научных журналов, книг и материалов конференций выходят на английском языке. Это связано с тем, что международным языком науки является английский, поэтому ещё раз отметим – это исследование сопоставляет не величие писателей, а лишь их влияние на контекст мировой науки.

Рейтинг произведений

Если быть предельно кратким, то три самых высокоцитируемых произведения русских классиков – это «COMPLETE WORKS», «POLNOE SOBRANIE SOCHINENII» и «PSS». Это - основной фактор, «загрязняющий» итоговые результаты, и он является следствием того, как оформляются ссылки на работы в научных журналах. Очень часто цитирующий автор указывает не название собственно произведения, а название источника, год выпуска и номер страницы, на которой находится цитируемый текст. Больше всего от этого «страдают» стихотворения, которые чаще, чем объёмная проза, выходят в сборниках, но не настолько, чтобы в итоговом рейтинге работ стихотворных произведений не было. Ниже мы приводим 20 русских классических произведений, оставивших самый заметный след в мировых научных исследованиях:

1 Братья Карамазовы          1319
2 Война и Мир                        942
3 Анна Каренина                    743
4 Преступление и Наказание      663
5 Евгений Онегин                    620
6 Записки из Подполья                  496
6 Идиот                                496
8 Архипелаг ГУЛАГ*                399
9 Доктор Живаго                       374
10 Смерть Ивана Ильича                373
11 Бесы                                  360
12 История Государства Российского* 352
13 Мастер и Маргарита              302
14 Мёртвые Души                         299
15 Вишнёвый сад                         213
16 Чайка                                  211
17 Отцы и дети                                       203
18 Ревизор                               186
19 Дядя Ваня                           160
20 Герой Нашего Времени                  152

След русских классиков в мировой науке

Вот некоторые интересные наблюдения, которые нам удалось сделать на основании более детального анализа цитируемости отдельных произведений Льва Толстого и Достоевского.

Их произведения, как и большинство прочих, активнее всего цитируются в области социогуманитарных наук: искусствоведами, историками, лингвистами и так далее. Тем не менее, эти работы оказывают влияние и на современные исследования в области естественных наук.

На изображении представлена разбивка публикаций, цитирующих «Братьев Карамазовых», по предметным областям, взятая из аналитического инструмента Thomson Reuters InCites. Интересно, что произведение цитируется, хотя и довольно скромно, публикациями в области химии. И если одна из них использует текст из «Братьев Карамазовых» в качестве эпиграфа[1], что не несёт в себе существенной научной ценности, то вторая – «Protein sequences as literature text», написанная при непосредственном участии проректора МГУ Алексея Ремовича Хохлова – использует текст «Братьев Карамазовых» для проверки методики анализа повторяющихся сегментов в белках[2]. Также очевидно, что произведения Достоевского дали значительный материал для работы нейробиологов, психологов и психиатров во всём мире.




Цитируемость Достоевского психологами, психиатрами и нейробиологами - пожалуй, наиболее заметный след российских писателей в мировой науке. Более сотни публикаций в Web of Science – в свою очередь, процитированные не одну тысячу раз – ссылаются на произведения Достоевского в контексте анализа как симптомов эпилепсии у персонажей его произведений, болезни самого автора и взяимосвязи между недугом у автора и его героев[3,4,5,6].

Интересно выглядит разбивка по предметным областям публикаций, цитирующих «Войну и Мир». 77 цитирующих работ по истории были, в свою очередь, процитированы более 400 раз, что подтверждает огромную ценность «Войны и Мира» для историков. Примечательно, что две из трёх математических статей, ссылающихся на произведение Льва Николаевича, целиком и полностью посвящены математическим метафорам Льва Толстого, приведённым в четвёртом томе «Войны и Мира»[7,8].



Знаменитая фраза «Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему» из «Анны Карениной» настолько часто используется (как правило, очень к месту) в ряде исследований по естественным наукам, иногда – в несколько переработанном виде, например, «Ordered structures are all alike; every disorder class is disordered in its own way»[9], что в одной из публикаций получила статус официального научного термина - «Anna Karenina principle»[10].

Заключение

Помимо развлекательной цели, которую мы преследовали – составление рейтинга цитируемости российских писателей и поэтов и проведение самого поверхностного сопоставления их показателей с аналогичными показателями иностранных классиков, мы хотели понять, оказали ли их работы влияние на последующие научные исследования в мире и можем ли мы измерить это влияние. Несмотря на то, что значительная часть цитирований на эти работы приходит из литературных обзоров, нам удалось увидеть, что шедевры литературы нередко используются учёными не только в области истории (если книга повествует о событиях исторической важности) или поведенческих наук (для которых, как правило, ценность представляет драматургия). Тексты этих книг используются и как эпиграфы к статьям, и как массивы данных для проверки алгоритмов, а отдельные фразы могут иметь достаточно значимости для науки, чтобы превратиться в распространённый научный термин. Наконец, в исключительных случаях научное содержание произведений может цитироваться в точности так же, как и полноценные научные труды.

Ссылки

1.        Salomone, A. et al. Direct observation of a lithiated oxirane: a synergistic study using spectroscopic, crystallographic, and theoretical methods on the structure and stereodynamics of lithiated ortho-trifluoromethyl styrene oxide.Chemical Science 5, 528-538, doi:10.1039/c3sc52099d (2014).
2.  Vasilevskaya, V. V., Gusev, L. V. & Khokhlov, A. R. Protein sequences as literature text. Macromolecular Theory and Simulations 15, 425-431, doi:10.1002/mats.200600003 (2006).
3.      Stefan, H. et al. Ictal pleasant sensations: Cerebral localization and lateralization. Epilepsia 45, 35-40, doi:10.1111/j.0013-9580.2004.09303.x (2004).
4.      Picard, F. & Craig, A. D. Ecstatic epileptic seizures: A potential window on the neural basis for human self-awareness.Epilepsy & Behavior 16, 539-546, doi:10.1016/j.yebeh.2009.09.013 (2009).
5.      Paredes, R. G., Muzzi, G., Aguirre, E. & Romero, V. Can a generalized kindling seizure induce a reward state? Epilepsy Research 38, 249-257, doi:10.1016/s0920-1211(99)00101-1 (2000).
6.      Baumann, C. R., Novikov, V. P. I., Regard, M. & Siegel, A. M. Did Fyodor Mikhailovich Dostoevsky suffer from mesial temporal lobe epilepsy? Seizure-European Journal of Epilepsy 14, 324-330, doi:10.1016/j.seizure.2005.04.004 (2005).
7.       Ahearn, S. T. Tolstoy's integration metaphor from war and peace. American Mathematical Monthly 112, 631-638 (2005).
8.      Vitanyi, P. M. B. Tolstoy's Mathematics in War and Peace. Mathematical Intelligencer 35, 71-75, doi:10.1007/s00283-012-9342-8 (2013).
9.      Novikov, D. S., Jensen, J. H., Helpern, J. A. & Fieremans, E. Revealing mesoscopic structural universality with diffusion.Proceedings of the National Academy of Sciences of the United States of America 111, 5088-5093, doi:10.1073/pnas.1316944111 (2014).

10.   Holmes, I., Harris, K. & Quince, C. Dirichlet Multinomial Mixtures: Generative Models for Microbial Metagenomics. Plos One 7, doi:10.1371/journal.pone.0030126 (2012).