Friday 28 March 2014

Шлейф из низкоцитируемых статей

В одном из предыдущих постов я обещал проверить догадку, согласно которой большой шлейф из нецитируемых статей является причиной общей низкой цитируемости российской науки. И проверил. Не думаю, что раскопал нечто сенсационное, но картина получилась красивая, наглядная и немного грустная.

Все эти данные были взяты из InCites (национальные Research Performance Profiles, статьи, опубликованные с 2001 по неполный 2013й год), но, в принципе, то же самое можно сделать и с помощью Web of Science - разница в относительных показателях будет принебрежимо мала, только повозиться тогда придётся чуть-чуть подольше. Публикации были разбиты на группы: с цитированием 0, 1, 2, 3 - и все остальные.

Вот так это выглядит в табличном виде:


А вот так - в графическом, изображение кликабельно:


Да, российские учёные публикуют довольно много статей по математике, где цитирование невысокое, и относительно мало статей по высокоцитируемым предметным областям вроде генетики или онкологии, но общей картины это не меняет. Таким образом, большее количество низко- и нецитируемых статей "съедает" долю тех статей, которые оказывают реальное влияние на контекст сегодняшних научных исследований в мире.

Этот пост я пишу, возвращаясь из Санкт-Петербурга, где мы встречались с университетами-участниками проекта 5-100, в ходе которых мы нашли ещё одну интересную закономерность, проанализировав, где же публикуются их учёные. Об этом - на следующей неделе.

Tuesday 25 March 2014

2,44%

Этот пост должен был появиться здесь 8го мая 2012 г., но до последних нескольких недель вопрос о том, как считать относительное количество российских статей в Web of Science, для меня был закрыт - до сих пор я был полностью за то, чтобы измерять процент российских работ по всем типам документов, которые есть в базе. И когда я слышал предложения: "а давайте посчитаем публикационную активность только по журнальным и конференционным указателям" или "давайте сравним только количество статей и обзоров" - у меня возникала полная уверенность, что сейчас начнётся манипуляция цифрами, о своём отношении к которой я уже писал здесь.

Тем не менее, стоит признать, что многообразие научных материалов, расписываемых в реферативных базах данных, приводит к некоторой неоднородности массива данных, которой можно пренебрегать в одних случаях, но которая становится совершенно неприемлемой в других. Если, к примеру, взять книги - в них далеко не всегда аффиляция указывается по тем же стандартам, которые используются в журналах. В результате, поиск по автору для последующей оценки его публикационной активности совершенно не страдает, а вот поиск по адресу для оценки организации или страны в целом - очень даже.

Помимо этого, есть такая вещь как citeable items, если дословно перевести на русский - получится забавное "цитабельные материалы". Идея в том, что Web of Science индексирует все материалы расписываемого журнала, по которым указывается необходимая реферативная информация, это могут быть и авторские колонки, и письма, и т.д. - всего как минимум 38 типов документов. Разумеется, далеко не каждый из них должен быть использован для оценки, поэтому в InCites мы используем уже только citeable items: оригинальные статьи, обзоры и материалы научных конференций, выходящие в журналах Web of Science. Таким образом получается следующее - извините, никак не научусь пользоваться blogger'ом, красивые таблицы умею вставлять только картинкой:


Важно: то, что цифры 2014 года пока неокончательные, это очевидно. Финальные цифры 2013 года будут доступны в мае-июне этого года, мы ожидаем, что абсолютное их количество превысит и показатель 2012, и 2011 г., а относительное - едва ли изменится.

Также можно утверждать следующее: очевидно, что 2013й год был лучше остальных и ознаменовался ростом публикационной активности, как ни считай, а вот цифры 2014го г., хоть пока и находятся в рамках статистической погрешности, меня настораживают.

Эти показатели, покуда вопрос 2.44% актуален, буду обновлять в этом же блоге ежемесячно.

Tuesday 11 March 2014

Соотношение процитированных и непроцитированных работ у ведущих российских университетов

На выходных задумался, а что же мы совсем не пользуемся таким замечательным показателем, как соотношение процитированных и непроцитированных статей для оперативной оценки, например, университетов-участников проекта 5-100? Смотрите, что можно сделать, если сравнить их таким образом за 2013й год:

Процитированные статьи Всего статей Процент процитированных статей
Новосибирский Государственный 272 949 28,66%
НИЯУ МИФИ 134 489 27,40%
Самарский Аэрокосмический 10 41 24,39%
МФТИ 160 695 23,02%
Дальневосточный Федеральный 49 223 21,97%
Казанский Федеральный 83 433 19,17%
ННГУ им. Лобачевского 59 315 18,73%
Санкт-Петербургский Политехнический 57 311 18,33%
ИТМО 49 273 17,95%
НИТУ МИСиС 42 237 17,72%
ЛЭТИ 20 114 17,54%
Уральский Федеральный 91 540 16,85%
Томский Государственный 83 515 16,12%
Высшая Школа Экономики 41 283 14,49%
Томский Политехнический 33 238 13,87%

Особняком здесь стоит только Вышка, у которой показатель ниже среднего всё-таки можно объяснить уклоном в сторону общественных наук, где цитируемость стандартно ниже и медленнее (впрочем, вот здесь есть все основания полагать, что и по этому показателю ВШЭ будет медленно, но подниматься в этом списке), и СГАУ, у которого количество статей пока довольно невысокое. Теперь я раз в квартал, а может, и чаще, буду обращаться к обновлённым показателям, в том числе - за 2014й год, и сравнивать их с приведёнными выше, а результаты обязательно буду выкладывать здесь. Теперь давайте попробуем разобраться, много это или мало в масштабах России.

МГУ: 23.1%
СПБГУ: 22.4%
Россия в целом за 2013й год: 17.2%

А вот - некоторые международные ориентиры:

Cambridge University: 34.9%
Humboldt University (94е место в рейтинге THE за прошлый год): 31.5%

Не думаю, что этот показатель когда-нибудь станет популярным, но в данном случае он интересен тем, что:
- в гораздо большей степени, чем суммарное или среднее цитирование, годится для сравнения организаций, работающих в разных предметных областях (хотя окончательно и не решает проблему с разным поведением цитирования в разных областях знания);
- для его подсчёта не обязательно ждать конкретной даты: срез мы можем сделать когда захотим, главное - чтобы дата выгрузки совпадала по всем сопоставляемым организациям и/или странам. В этой статье выгрузка сделана по состоянию на 7е марта 2014 г;
- есть у меня предположение (дополнительно проверю и результатами поделюсь здесь же), что именно шлейф из большого количества нецитируемых работ так негативно влияет на показатели России в мире, и стремление к снижению их количества на уровне организации или страны в целом как раз может дать толчок суммарным индикаторам.

Наконец, количество процитированных и непроцитированных работ можно очень легко подсчитать, имея под рукой только Web of Science: находим все статьи за интересующий период, сортируем их по цитируемости и, почти как предлагал в своё время Хорхе Хирш,  листаем до страницы, на которой находится граница статей с цитированием 1 и цитированием 0.