Resources Ressourcen Ресурсы

This page gathers the tools and reference resources I have developed for digital philology, text processing, and corpus linguistics.

Auf dieser Seite finden Sie Werkzeuge und Materialien, die ich für digitale Philologie, Textverarbeitung und Korpuslinguistik entwickelt habe.

На этой странице собраны инструменты и справочные материалы, которые я разработал для цифровой филологии, обработки текста и корпусной лингвистики.

Corpus Linguistics Tools Werkzeuge für die Korpuslinguistik Инструменты для корпусной лингвистики

LemmaSketches available verfügbar доступно

LemmaSketches is a tool for exploring syntactic collocations in the corpora hosted at corpora.fisun.org. It shows the syntactic profile of a lemma: which words occur with it most often, in which dependency relations, and how strongly they are associated.

LemmaSketches ist ein Werkzeug zur Untersuchung syntaktischer Kollokationen in den Korpora auf corpora.fisun.org. Es zeigt das syntaktische Profil eines Lemmas: welche Wörter am häufigsten mit ihm auftreten, in welchen Dependenzrelationen und wie stark diese zusammenhängen.

LemmaSketches — это инструмент для исследования синтаксических коллокаций в корпусах на corpora.fisun.org. Он показывает синтаксический профиль леммы: какие слова чаще всего с ней сочетаются, в каких типах зависимостей и насколько тесна эта связь.

The tool works with dependency-annotated corpus data. it groups collocates by syntactic relation, so you can see not only which lexemes co-occur, but also in which syntactic relations. A comparison mode lets you compare two corpora, two lemmas, or your data with the Russian National Corpus (RNC). This makes it possible to check whether a collocation is corpus-specific, how a pattern changes across datasets, and which relations are stable or unique. Comparison results can be downloaded as CSV or as images, including a black-and-white version.

Das Werkzeug arbeitet mit dependenzannotierten Korpusdaten. Für jedes Lemma werden die Kollokate nach syntaktischer Relation gruppiert, sodass man nicht nur sieht, welche Lexeme zusammen vorkommen, sondern auch in welchen syntaktischen Beziehungen. Ein Vergleichsmodus erlaubt den Vergleich von zwei Korpora, zwei Lemmata oder eigenen Daten mit dem Russischen Nationalkorpus (RNK). So lässt sich prüfen, ob eine Kollokation korpusspezifisch ist, wie sich ein Muster zwischen Datensätzen verändert und welche Relationen stabil oder einzigartig sind. Vergleichsergebnisse können als CSV oder als Bilder heruntergeladen werden, auch in Schwarzweiß.

Инструмент работает с корпусными данными, размеченными по синтаксическим зависимостям. Для каждой леммы коллокаты группируются по типам отношений, так что видно не только то, какие лексемы встречается вместе, но и в каких синтаксических отношениях. Режим сравнения позволяет сопоставить два корпуса, две леммы или ваши данные с Национальным корпусом русского языка (НКРЯ). Это позволяет проверить, является ли коллокация специфичной для корпуса, как меняется модель по разным наборам данных и какие отношения устойчивы, а какие уникальны. Результаты сравнения можно скачать как CSV или как изображения, в том числе в черно-белом варианте.

Technical background: LemmaSketches is built on Flask and the Manatee corpus engine. The server reads dependency-annotated corpus data, counts relation slots for the selected lemma, and ranks collocates by logDice or raw frequency. RNC data are retrieved separately and normalized so the comparison remains meaningful.

Technischer Hintergrund: LemmaSketches basiert auf Flask und der Korpus-Engine Manatee. Der Server liest dependenzannotierte Korpusdaten, zählt die Relationen für das gewählte Lemma und ordnet die Kollokate nach logDice oder absoluter Frequenz. Die RNK-Daten werden separat abgerufen und so normalisiert, dass der Vergleich aussagekräftig bleibt.

Техническая основа: LemmaSketches написан на Flask и работает с движком Manatee. Сервер читает корпусные данные с разметкой зависимостей, считает слоты отношений для выбранной леммы и ранжирует коллокаты по logDice или абсолютной частотности. Данные НКРЯ запрашиваются отдельно и приводятся к сопоставимому виду, чтобы сравнение оставалось осмысленным.


Graphs available verfügbar доступно

An interactive tool for visualizing frequency patterns in the Russian religious corpora hosted at corpora.fisun.org. It is designed for lexical comparison across corpora, subcorpora, and time, with all results normalized as IPM so that datasets of different size can be compared directly.

Ein interaktives Werkzeug zur Visualisierung von Frequenzmustern in den russischen religiösen Korpora auf corpora.fisun.org. Es dient dem lexikalischen Vergleich über Korpora, Teilkorpora und Zeiträume hinweg; alle Ergebnisse werden als IPM normalisiert, damit unterschiedlich große Datenbestände direkt vergleichbar sind.

Инструмент для визуализации частотных данных в русских религиозных корпусах, размещенных на corpora.fisun.org. Предназначен для лексического сравнения по корпусам, подкорпусам, а также для построения диахронических графиков частотности; все результаты нормализуются в IPM, чтобы корпуса разного объема можно было напрямую сопоставлять.

The tool has two main modes. Diachronic charts plot yearly frequency curves for one or more query terms and allow comparison across corpora or search types (lemma and wordform), with optional smoothing and raw data point overlays. Frequency comparison produces bar charts for corpora and subcorpora in three layouts: multiple words in one corpus (A), one or more words across all subcorpora of one corpus (B), or a custom multi-corpus matrix (C).

Das Werkzeug bietet zwei Hauptmodi. Diachrone Diagramme zeigen jährliche Frequenzverläufe für einen oder mehrere Suchbegriffe und erlauben Vergleiche zwischen Korpora oder Suchtypen (Lemma vs. Wortform), optional mit Glättung und Anzeige der Rohdatenpunkte. Vergleich der Wortfrequenzen erzeugt Balkendiagramme für Korpora und Teilkorpora in drei Layouts: mehrere Wörter in einem Korpus (A), ein oder mehrere Wörter über alle Teilkorpora eines Korpus hinweg (B) oder eine frei zusammengestellte Mehrkorpus-Matrix (C).

У инструмента два основных режима. Диахронические графики показывают кривые частотности по годам для одного или нескольких запросов и позволяют сравнивать данные разных корпусов и типов поиска (лемма или словоформа), при необходимости со сглаживанием и отображением исходных точек. Сравнение частотностей строит столбчатые диаграммы по корпусам и подкорпусам в трех вариантах: несколько слов в одном корпусе (A), одно или несколько слов по всем подкорпусам одного корпуса (B) или произвольная многокорпусная матрица (C).

Both modes can be compared with data from the Russian National Corpus (RNC). Frequency data can be imported from three RNC subcorpora: MAIN (main corpus), PAPER (national press), and REGIONAL (regional press). These data are added as an extra series alongside the selected corpus results. Since the RNC counts corpus size without punctuation, while my corpora include punctuation, the interface also provides an optional IPM correction factor (× 0.832) for more accurate comparison.

Beide Modi können mit Daten aus dem Russischen Nationalkorpus (RNK) verglichen werden. Frequenzdaten lassen sich aus drei RNK-Teilkorpora importieren: MAIN (Hauptkorpus), PAPER (zentrale Presse) und REGIONAL (regionale Presse). Diese Daten werden als zusätzliche Reihe zu den ausgewählten Korpusergebnissen hinzugefügt. Da der RNK Korpusgrößen ohne Interpunktion berechnet, meine Korpora jedoch mit Interpunktion, steht außerdem ein optionaler IPM-Korrekturfaktor (× 0.832) für einen genaueren Vergleich zur Verfügung.

В обоих режимах можно сравнивать данные с Национальным корпусом русского языка (НКРЯ). Можно импортировать частотность из трех подкорпусов НКРЯ: MAIN (основной корпус), PAPER (центральная пресса) и REGIONAL (региональная пресса). Эти данные добавляются к результатам как отдельный ряд. Поскольку в НКРЯ объем корпуса считается без знаков препинания, а в моих корпусах — с их учетом, в интерфейсе предусмотрен дополнительный корректирующий коэффициент IPM (× 0.832) для более точного сопоставления.

Additional features include CSV export, a black-and-white mode for publications, and interactive Plotly charts that can be saved as PNG.

Weitere Funktionen sind CSV-Export, ein Schwarzweißmodus für Verwendung in Publikationen sowie interaktive Plotly-Diagramme, die als PNG gespeichert werden können.

Дополнительно доступны экспорт в CSV, черно-белый режим для использования в публикациях и интерактивные графики Plotly с сохранением в PNG.

Technical background: Built with Flask on top of the Manatee corpus engine. Queries are executed server-side through command-line corpus tools; IPM values are calculated on the server and passed to the front end, where charts are rendered with Plotly.js. Data from the Russian National Corpus are retrieved separately via its public API.

Technischer Hintergrund: Entwickelt mit Flask auf Basis der Korpus-Engine Manatee. Die Anfragen werden serverseitig über Kommandozeilen-Werkzeuge ausgeführt; die IPM-Werte werden auf dem Server berechnet und an das Frontend übergeben, wo die Diagramme mit Plotly.js gerendert werden. Die Daten aus dem Russischen Nationalkorpus werden separat über dessen offene API abgerufen.

Техническая основа: Инструмент написан на Flask и работает c движком Manatee. Запросы выполняются на стороне сервера через консольные утилиты; значения IPM вычисляются на сервере и передаются во фронтенд, где графики строятся с помощью Plotly.js. Данные из НКРЯ запрашиваются отдельно через его открытое API.


SyntSearch available verfügbar доступно

A search interface for syntactically annotated corpora from corpora.fisun.org. Unlike standard corpus interfaces, it allows direct querying of dependency structures: for any word form or lemma, it retrieves all occurrences and shows syntactic heads and dependents grouped by dependency relation type.

Eine Suchoberfläche für syntaktisch annotierte Korpora von corpora.fisun.org. Im Unterschied zu üblichen Korpusoberflächen erlaubt sie die direkte Abfrage von Dependenzstrukturen: Für jede Wortform oder jedes Lemma werden alle Belege sowie die zugehörigen syntaktischen Köpfe und Dependents nach Relationstyp gruppiert angezeigt.

Поисковый интерфейс для синтаксически размеченных корпусов с corpora.fisun.org. В отличие от обычных корпусных интерфейсов, он позволяет напрямую запрашивать структуры зависимостей: для любой словоформы или леммы выводятся все вхождения, а также вершины и зависимые элементы, сгруппированные по типам отношений.

SyntSearch also includes a syntactic portrait mode. For a given lemma, it summarizes how that lemma behaves in the corpus: which dependency relations it most often enters as a head or as a dependent, and which words most frequently occur in each relation slot. Frequency statistics are available both for individual dependency pairs and for relation types.

SyntSearch bietet außerdem einen Modus für syntaktische Porträts. Für ein gegebenes Lemma fasst er zusammen, wie sich dieses Lemma im Korpus verhält: in welchen Dependenzrelationen es typischerweise als Kopf oder als Dependens auftritt und welche Wörter in den jeweiligen Relationen am häufigsten vorkommen. Frequenzstatistiken stehen sowohl für einzelne Dependenzpaare als auch für Relationstypen zur Verfügung.

В SyntSearch есть и режим синтаксического портрета. Для заданной леммы он показывает, как она ведет себя в корпусе: в каких типах синтаксических отношений чаще всего выступает вершиной или зависимым элементом и какие слова наиболее часто встречаются в соответствующих позициях. Частотная статистика доступна как для отдельных пар зависимостей, так и для типов отношений.

Built with Flask; queries are executed via the Manatee , and the results are processed server-side to extract dependency information from the corpus annotation.

Entwickelt mit Flask; die Anfragen laufen über die Manatee, und die Ergebnisse werden serverseitig verarbeitet, um Dependenzinformationen aus der Korpusannotation zu extrahieren.

Инструмент реализован на Flask; запросы выполняются через Manatee, а результаты обрабатываются на сервере для извлечения информации о синтаксических зависимостях из корпусной разметки.

Digital Philology Tools Werkzeuge der digitalen Philologie Инструменты для цифровой филологии

Dostoevsky Search available verfügbar доступно

A full-text search interface for the works of Fyodor Dostoevsky. It supports exact word forms, lemmatized queries, and multi-word phrases. Results include numbered occurrences, expandable context windows, collocations, word-form data, and statistical measures such as IPM, CV, and the Gini coefficient, as well as navigation across the structural divisions of the text.

Eine Volltext-Suchoberfläche für die Werke Fjodor Dostojewskijs. Unterstützt werden exakte Wortformen, lemmatisierte Anfragen und Mehrwortphrasen. Die Ergebnisse umfassen nummerierte Treffer, aufklappbare Kontextfenster, Kollokationen, Wortformen und statistische Kennwerte wie IPM, CV und den Gini-Koeffizienten sowie die Navigation durch die Textgliederung.

Полнотекстовый поисковый интерфейс по произведениям Ф. М. Достоевского. Поддерживаются точные словоформы, запросы по лемме и многословные фразы. В результатах доступны пронумерованные вхождения, раскрывающиеся окна контекста, коллокации, словоформы и статистические показатели, такие как IPM, CV и коэффициент Джини, а также навигация по структурным частям текста.

The interface also includes a single-text mode, which lets users open one work and move directly from occurrence to occurrence within that text.

Zusätzlich gibt es einen Einzeltext-Modus, in dem ein Werk vollständig geöffnet und direkt von Treffer zu Treffer navigiert werden kann.

В интерфейсе есть и режим работы с отдельным текстом: можно открыть произведение целиком и переходить от одного вхождения к другому прямо внутри текста.

Search modes Suchmodi Режимы поиска exact forms, lemmas, phrases exakte Formen, Lemmata, Phrasen точные формы, леммы, фразы
Results per page Treffer pro Seite Результатов на странице 50
Preview Vorschau Предпросмотр ~1,500 characters
Extended context Erweiterter Kontext Расширенный контекст ~30,000 characters
Statistics Statistik Статистика IPM, CV, Gini, collocations (±3), word forms
Collocation filter Kollokationsfilter Фильтр коллокаций stopwords (on/off) Stoppwörter (an/aus) стоп-слова (вкл./выкл.)

Built with Flask and pymorphy2 for lemmatization and morphological analysis of Russian word forms. The system detects text structure automatically from markup.

Entwickelt mit Flask und pymorphy2 für Lemmatisierung und morphologische Analyse russischer Wortformen. Die Textstruktur wird automatisch aus dem Markup erkannt.

Инструмент разработан на Flask и использует pymorphy2 для лемматизации и морфологического анализа русских словоформ. Структура текста определяется автоматически по разметке.

Reference edition: Достоевский, Ф. М. (1989–1996). Собрание сочинений в 15 томах. Наука, Ленинградское отделение.

Referenzausgabe: Достоевский, Ф. М. (1989–1996). Собрание сочинений в 15 томах. Наука, Ленинградское отделение.

Издание-источник: Достоевский, Ф. М. (1989–1996). Собрание сочинений в 15 томах. Наука, Ленинградское отделение.

Text Processing Tools Werkzeuge zur Textverarbeitung Инструменты для обработки текста

RUslav: Cyrillic Keyboard for Windows available verfügbar доступно

A phonemic Cyrillic keyboard layout designed for Slavic studies in a German-language academic environment. It is based on the standard German QWERTZ layout and supports both modern Slavic languages and historical scripts, including Old Church Slavonic and Church Slavonic.

Eine phonemische kyrillische Tastaturbelegung für die Slavistik im deutschsprachigen akademischen Umfeld. Sie basiert auf der deutschen Standardbelegung QWERTZ und unterstützt sowohl moderne slavische Sprachen als auch historische kyrillische Schriften, darunter Altkirchenslavisch und Kirchenslavisch.

Фонематическая кириллическая раскладка для славистики в немецкоязычной академической среде. Она основана на стандартной немецкой раскладке QWERTZ и поддерживает как современные славянские языки, так и исторические кириллические системы письма, включая старославянский и церковнославянский.

DocxSectioner available verfügbar доступно

A desktop tool that splits large Word documents into separate files based on heading styles. It is useful for theses and other long academic manuscripts.

Ein Desktop-Werkzeug, das große Word-Dokumente anhand von Überschriftenstilen in einzelne Dateien aufteilt. Es eignet sich für Dissertationen und andere umfangreiche wissenschaftliche Manuskripte.

Программа для macOS, которая разбивает большие Word-документы на отдельные файлы по стилям заголовков. Она подходит для диссертаций и других длинных научных рукописей.

The program preserves formatting, tables, and images, which makes it suitable for modular editing of large documents.

Das Programm erhält Formatierungen, Tabellen und Bilder und eignet sich daher für die modulare Bearbeitung größerer Dateien.

Программа сохраняет форматирование, таблицы и изображения, поэтому подходит для модульного редактирования больших документов.

DocxMelter available verfügbar доступно

A companion tool for merging multiple .docx files into one master document. It is intended for assembling split chapters, articles, or edited sections into a single file.

Ein Ergänzungswerkzeug für DocxSectioner zum Zusammenführen mehrerer .docx-Dateien in ein gemeinsames Hauptdokument. Es ist für das Zusammenstellen getrennter Kapitel, Aufsätze oder redigierter Abschnitte in einer Datei gedacht.

Дополнительный инструмент для DocxSectioner для объединения нескольких файлов .docx в один основной документ. Он предназначен для сборки отдельных глав, статей или отредактированных разделов в единый файл.

It keeps section breaks and page numbering consistent across the merged document.

Abschnittswechsel und Seitennummerierung bleiben im zusammengeführten Dokument konsistent.

При объединении сохраняются разрывы разделов и нумерация страниц по всему документу.

Transliteration Tools Werkzeuge zur Transliteration Инструменты для транслитерации

Online Transliteration available verfügbar доступно

A browser-based tool for transliterating Cyrillic texts into Latin script and back into Cyrillic. It is based on the scholarly standard commonly used in Slavic linguistics, especially in German-speaking academia.

Ein browserbasiertes Werkzeug zur Transliteration kyrillischer Texte in lateinische Schrift und zurück ins Kyrillische. Es basiert auf dem wissenschaftlichen Standard, der in der Slavistik, besonders im deutschsprachigen Raum, gebräuchlich ist.

Браузерный инструмент для транслитерации кириллических текстов в латиницу и обратно в кириллицу. Он основан на академическом стандарте, широко используемом в славистике, особенно в немецкоязычной научной среде.

Supported languages include Russian, Ukrainian, Belarusian, Bulgarian, Serbian, Macedonian, and Old Church Slavonic. Only Cyrillic characters are transliterated; all other characters remain unchanged. When converting from Latin to Cyrillic, ambiguous sequences are highlighted in red so they can be checked and corrected manually (for example, ja may correspond to я or йа). The highlighting is visible only in the editor and is not copied.

Unterstützt werden Russisch, Ukrainisch, Belarussisch, Bulgarisch, Serbisch, Mazedonisch und Kirchenslavisch. Translitiert werden nur kyrillische Zeichen; alle anderen Zeichen bleiben unverändert. Bei der Umwandlung von lateinischer in kyrillische Schrift werden mehrdeutige Sequenzen rot hervorgehoben, damit sie manuell geprüft und bei Bedarf korrigiert werden können (zum Beispiel kann ja für я oder йа stehen). Diese Hervorhebung ist nur im Editor sichtbar und wird nicht mitkopiert.

Поддерживаются русский, украинский, белорусский, болгарский, сербский, македонский и старо(церковно)славянский языки. Транслитерируются только кириллические символы; все остальные знаки остаются без изменений. При обратном преобразовании из латиницы в кириллицу неоднозначные последовательности выделяются красным, чтобы их можно было проверить и при необходимости исправить вручную (например, ja может соответствовать я или йа). Это выделение видно только в редакторе и не копируется.

The editor preserves basic formatting, including bold, italics, line breaks, and letter case.

Der Editor behält die Grundformatierung bei, darunter Fett- und Kursivschrift, Zeilenumbrüche und Groß- und Kleinschreibung.

Редактор сохраняет базовое форматирование, включая полужирное и курсивное начертание, переносы строк и регистр букв.

Macros for Russian and Ukrainian Transliteration available verfügbar доступно

A Microsoft Word–based tool for transliterating Russian and Ukrainian text directly inside Word documents according to the scholarly standard widely used in German-language Slavic studies.

Ein Microsoft-Word-basiertes Werkzeug zur Transliteration russischer und ukrainischer Texte direkt in Word-Dokumenten nach dem wissenschaftlichen Standard, der in der deutschsprachigen Slavistik verbreitet ist.

Инструмент для Microsoft Word, предназначенный для транслитерации русского и украинского текста прямо внутри документов Word по научному стандарту, принятому в немецкоязычной славистике.

Distributed as a Word template with VBA macros, it preserves ordinary document formatting during transliteration, including character styling and paragraph layout.

Das Werkzeug wird als Word-Vorlage mit VBA-Makros bereitgestellt und behält bei der Transliteration die übliche Dokumentformatierung bei, einschließlich Zeichenformatierung und Absatzlayout.

Инструмент распространяется как шаблон Word с VBA-макросами и при транслитерации сохраняет обычное форматирование документа, включая оформление символов и структуру абзацев.

This makes it suitable for revising existing documents, preparing teaching materials, and converting formatted text for academic use without moving it into a separate editor.

Dadurch eignet es sich für die Überarbeitung bestehender Dokumente, die Vorbereitung von Unterrichtsmaterialien und die Umwandlung bereits formatierter Texte für den wissenschaftlichen Gebrauch, ohne den Text zuvor in einen separaten Editor übertragen zu müssen.

Это делает его удобным для правки готовых документов, подготовки учебных материалов и преобразования уже отформатированного текста без переноса в отдельный редактор.

Contact Kontakt Контакт

roman [at] fisun.org