Resources Ressourcen Ресурсы

This page brings together tools and reference resources I have developed for digital philology, text processing, and corpus linguistics.

Diese Seite versammelt Werkzeuge und Materialien, die ich für digitale Philologie, Textverarbeitung und Korpuslinguistik entwickelt habe.

На этой странице собраны инструменты и материалы, которые я разработал для цифровой филологии, обработки славянских текстов и корпусной лингвистики.

Corpus Linguistics Tools Werkzeuge für die Korpuslinguistik Инструменты для корпусной лингвистики

Graphs available verfügbar доступно

An interactive tool for visualizing frequency patterns in the Russian religious corpora hosted at corpora.fisun.org. It is designed for lexical comparison across corpora, subcorpora, and time, with all results normalized as IPM so that datasets of different size can be compared directly.

Ein interaktives Werkzeug zur Visualisierung von Frequenzmustern in den russischen religiösen Korpora auf corpora.fisun.org. Es dient dem lexikalischen Vergleich über Korpora, Teilkorpora und Zeiträume hinweg; alle Ergebnisse werden als IPM normalisiert, damit unterschiedlich große Datenbestände direkt vergleichbar sind.

Инструмент для визуализации частотных данных в русских религиозных корпусах, доступных на corpora.fisun.org. Все результаты нормализуются в IPM, чтобы можно было напрямую сопоставлять корпуса разного объема.

The tool has two main modes. Diachronic charts plot yearly frequency lines for one or more query terms and allow comparison across corpora or search types (lemma and wordform), with optional smoothing and raw data point overlays. Frequency comparison produces bar charts for corpora and subcorpora in three layouts: multiple words in one corpus (A), one or more words across all subcorpora of one corpus (B), or a custom multi-corpus matrix (C).

Das Werkzeug bietet zwei Hauptmodi. Diachrone Diagramme zeigen jährliche Frequenzverläufe für einen oder mehrere Suchbegriffe und erlauben Vergleiche zwischen Korpora oder Suchtypen (Lemma vs. Wortform), optional mit Glättung und Anzeige der Rohdatenpunkte. Vergleich der Wortfrequenzen erzeugt Balkendiagramme für Korpora und Teilkorpora in drei Layouts: mehrere Wörter in einem Korpus (A), ein oder mehrere Wörter über alle Teilkorpora eines Korpus hinweg (B) oder eine frei zusammengestellte Mehrkorpus-Matrix (C).

У инструмента два основных режима. Графики по годам показывают частотные кривые для одного или нескольких запросов и позволяют сравнивать историческую частотность слов или словоформ в разных корпусах и подкорпусах, при необходимости со сглаживанием и отображением исходных (несглаженных) точек. Сравнение частотностей слов строит столбчатые диаграммы по корпусам и подкорпусам в трех вариантах: несколько слов в одном корпусе (A), одно или несколько слов в подкорпусах одного корпуса (Б) или произвольно по всем доступным корпусам и подкорпусам (В).

Both modes can be compared with data from the Russian National Corpus (RNC). Frequency data can be imported from three RNC subcorpora: MAIN (main corpus), PAPER (national press), and REGIONAL (regional press). These data are added as an extra series alongside the selected corpus results. Since the RNC counts corpus size without punctuation, while my corpora includes punctuation, the interface also provides an optional IPM correction factor (× 0.832) for more accurate comparison.

Beide Modi können mit Daten aus dem Russischen Nationalkorpus (NKRJa) verglichen werden. Frequenzdaten lassen sich aus drei RNK-Teilkorpora importieren: MAIN (Hauptkorpus), PAPER (zentrale Presse) und REGIONAL (regionale Presse). Diese Daten werden als zusätzliche Reihe zu den ausgewählten Korpusergebnissen hinzugefügt. Da der RNK Korpusgrößen ohne Interpunktion berechnet, meine Korpora jedoch mit Interpunktion, steht außerdem ein optionaler IPM-Korrekturfaktor (× 0.832) für einen genaueren Vergleich zur Verfügung.

В обоих режимах можно импортировать данные Национального корпуса русского языка (НКРЯ). Поддерживается импорт частотности из трех подкорпусов НКРЯ: MAIN (основной корпус), PAPER (центральные СМИ) и REGIONAL (региональные СМИ). Эти данные добавляются к результатам как отдельный ряд. Поскольку в НКРЯ объем корпуса считается без знаков препинания, а в моих корпусах с их учетом, в интерфейсе предусмотрен дополнительный корректирующий коэффициент IPM (× 0.832) для корректного сопоставления.

Additional features include CSV export, a black-and-white mode for publication figures, and interactive Plotly charts that can be saved as PNG.

Weitere Funktionen sind CSV-Export, ein Schwarzweißmodus für Abbildungen für Publikationen sowie interaktive Plotly-Diagramme, die als PNG gespeichert werden können.

Дополнительно доступны экспорт в CSV, черно-белый режим для публикаций и интерактивные графики Plotly с сохранением в PNG.

Technical background: Built with Flask on top of the Manatee corpus engine. Queries are executed server-side through command-line corpus tools; IPM values are calculated on the server and passed to the front end, where charts are rendered with Plotly.js. Data from the Russian National Corpus are retrieved separately via its public API.

Technischer Hintergrund: Entwickelt mit Flask auf Basis der Korpus-Engine Manatee. Die Anfragen werden serverseitig über Kommandozeilen-Werkzeuge ausgeführt; die IPM-Werte werden auf dem Server berechnet und an das Frontend übergeben, wo die Diagramme mit Plotly.js gerendert werden. Die Daten aus dem Russischen Nationalkorpus werden separat über dessen offene API abgerufen.

Техническая основа: Инструмент написан на Flask и работает с корпусным движком Manatee. Запросы выполняются на стороне сервера через консольные утилиты; значения IPM вычисляются на сервере и передаются во фронтенд, где графики строятся с помощью Plotly.js. Данные из НКРЯ запрашиваются отдельно через его открытое API.


SyntSearch registration required Registrierung erforderlich требуется регистрация

A search interface for syntactically annotated corpora from corpora.fisun.org. Unlike standard corpus interfaces, it allows direct querying of dependency structures: for any word form or lemma, it retrieves all occurrences and shows syntactic heads and dependents grouped by dependency relation type.

Eine Suchoberfläche für syntaktisch annotierte Korpora von corpora.fisun.org. Im Unterschied zu üblichen Korpusoberflächen erlaubt sie die direkte Abfrage von Dependenzstrukturen: Für jede Wortform oder jedes Lemma werden alle Belege sowie die zugehörigen syntaktischen Köpfe und Dependents nach Relationstyp gruppiert angezeigt.

Поисковый интерфейс для синтаксически размеченных корпусов с corpora.fisun.org. В отличие от обычных корпусных интерфейсов, он позволяет напрямую искать по структурам синтаксической зависимости: для любой словоформы или леммы выводятся все вхождения, а также связанные с ними вершины и зависимые элементы, сгруппированные по типам отношений.

SyntSearch also includes a syntactic portrait mode. For a given lemma, it summarizes how that lemma behaves in the corpus: which dependency relations it most often enters as a head or as a dependent, and which words most frequently occur in each relation slot. Frequency statistics are available both for individual dependency pairs and for relation types.

SyntSearch bietet außerdem einen Modus für syntaktische Porträts. Für ein gegebenes Lemma fasst er zusammen, wie sich dieses Lemma im Korpus verhält: in welchen Dependenzrelationen es typischerweise als Kopf oder als Dependens auftritt und welche Wörter in den jeweiligen Relationen am häufigsten vorkommen. Frequenzstatistiken stehen sowohl für einzelne Dependenzpaare als auch für Relationstypen zur Verfügung.

В SyntSearch есть и режим синтаксического портрета. Для заданной леммы он показывает, как она ведет себя в корпусе: в каких типах синтаксических отношений чаще всего выступает вершиной или зависимым элементом и какие слова наиболее частотны в соответствующих позициях. Частотная статистика доступна как для отдельных пар зависимостей, так и для типов отношений.

Built with Flask; queries are executed via the Manatee API, and the results are processed server-side to extract dependency information from the corpus annotation.

Entwickelt mit Flask; die Anfragen laufen über die Manatee-API, und die Ergebnisse werden serverseitig verarbeitet, um Dependenzinformationen aus der Korpusannotation zu extrahieren.

Инструмент реализован на Flask; запросы выполняются через API Manatee, а результаты обрабатываются на сервере для извлечения информации о синтаксических зависимостях из корпусной разметки.

Digital Philology Tools Werkzeuge der digitalen Philologie Инструменты для цифровой филологии

Dostoevsky Search available verfügbar доступно

A full-text search interface for the works of Fyodor Dostoevsky. It supports exact word forms, lemmatized queries, and multi-word phrases. Results include numbered occurrences, expandable context windows, statistical measures such as IPM, CV, Gini coefficient, collocations, and word forms, as well as navigation across structural divisions of the text.

Eine Volltext-Suchoberfläche für die Werke Fjodor Dostojewskijs. Unterstützt werden exakte Wortformen, lemmatisierte Anfragen und Mehrwortphrasen. Die Ergebnisse umfassen nummerierte Treffer, aufklappbare Kontextfenster, statistische Kennwerte wie IPM, CV, Gini-Koeffizient, Kollokationen und Wortformen sowie die Navigation durch die Textgliederung.

Полнотекстовый поисковый интерфейс по произведениям Ф. М. Достоевского. Поддерживаются точные словоформы, запросы по лемме и многословные фразы. В результатах доступны пронумерованные вхождения, раскрывающиеся окна контекста, статистика (IPM, CV, коэффициент Джини, коллокации, словоформы), а также навигация по структурным частям текста.

The interface also includes a single-text mode, which lets users open one work and move directly from occurrence to occurrence within that text.

Zusätzlich gibt es einen Einzeltext-Modus, in dem ein Werk vollständig geöffnet und direkt von Treffer zu Treffer navigiert werden kann.

В интерфейсе есть и режим работы с отдельным текстом: можно открыть произведение целиком и переходить по найденным вхождениям прямо внутри текста.

Search modes Suchmodi Режимы поиска exact forms, lemmas, phrases exakte Formen, Lemmata, Phrasen точные формы, леммы, фразы
Results per page Treffer pro Seite Результатов на странице 50
Preview Vorschau Предпросмотр ~1,500 characters
Extended context Erweiterter Kontext Расширенный контекст ~30,000 characters
Statistics Statistik Статистика IPM, CV, Gini, collocations (±3), word forms
Collocation filter Kollokationsfilter Фильтр коллокаций stopwords (on/off) Stoppwörter (an/aus) стоп-слова (вкл./выкл.)

Built with Flask and pymorphy2 for lemmatization and morphological analysis of Russian word forms. The system detects text structure automatically from markup.

Entwickelt mit Flask und pymorphy2 für Lemmatisierung und morphologische Analyse russischer Wortformen. Die Textstruktur wird automatisch aus dem Markup erkannt.

Инструмент разработан на Flask и использует pymorphy2 для лемматизации и морфологического анализа русских словоформ. Структура текста определяется автоматически по разметке.

Reference edition: Достоевский, Ф. М. (1989–1996). Собрание сочинений в 15 томах. Наука, Ленинградское отделение.

Referenzausgabe: Достоевский, Ф. М. (1989–1996). Собрание сочинений в 15 томах. Наука, Ленинградское отделение.

Издание-источник: Достоевский, Ф. М. (1989–1996). Собрание сочинений в 15 томах. Наука, Ленинградское отделение.

Text Processing Tools Werkzeuge zur Textverarbeitung Инструменты для обработки текста

RUslav: Cyrillic Keyboard for Windows available verfügbar доступно

A phonemic Cyrillic keyboard layout designed for Slavic studies in a German-language academic environment. It is based on the standard German QWERTZ layout and supports both modern Slavic languages and historical scripts, including Old Church Slavonic and Church Slavonic.

Eine phonemische kyrillische Tastaturbelegung für die Slavistik im deutschsprachigen akademischen Umfeld. Sie basiert auf der deutschen Standardbelegung QWERTZ und unterstützt sowohl moderne slavische Sprachen als auch historische Schriften, darunter Altkirchenslavisch und Kirchenslavisch.

Фонематическая кириллическая раскладка для славистики в немецкоязычной академической среде. Основана на стандартной немецкой раскладке QWERTZ и поддерживает как современные славянские языки, так и исторические письменности, включая старославянский и церковнославянский.

DocxSectioner available verfügbar доступно

A desktop tool that splits large Word documents into separate files based on heading styles. It is useful for theses, corpus segments, and long academic manuscripts.

Ein Desktop-Werkzeug, das große Word-Dokumente anhand von Überschriftenstilen in einzelne Dateien aufteilt. Es eignet sich für Dissertationen, Korpussegmente und umfangreiche wissenschaftliche Manuskripte.

Программа для macOS, которая разбивает большие Word-документы на отдельные файлы по стилям заголовков. Подходит для диссертаций, сегментов корпуса и больших научных рукописей.

The program preserves formatting, tables, and images, which makes it suitable for modular editing of big documents.

Das Programm erhält Formatierungen, Tabellen und Bilder und eignet sich daher für modulare Bearbeitung größerer Dateien.

Программа сохраняет форматирование, таблицы и изображения, поэтому подходит для модульного редактирования больших документов.

DocxMelter available verfügbar доступно

A companion tool for merging multiple .docx files into one master document. It is intended for assembling split chapters, articles, or edited sections into a single file.

Ein Ergänzungswerkzeug für DocxSectioner zum Zusammenführen mehrerer .docx-Dateien in ein gemeinsames Hauptdokument. Es ist für das Zusammenstellen getrennter Kapitel, Aufsätze oder redigierter Abschnitte in einer Datei gedacht.

Дополнительный инструмент для DocxSectioner для объединения нескольких файлов .docx в один основной документ. Предназначен для сборки глав, статей или отредактированных разделов в единый файл.

It keeps section breaks and page numbering consistent across the merged document.

Abschnittswechsel und Seitennummerierung bleiben im zusammengeführten Dokument konsistent.

При объединении сохраняется единая логика разделов и нумерации страниц по всему документу.

Transliteration Tools Werkzeuge zur Transliteration Инструменты для транслитерации

Online Transliteration available verfügbar доступно

A browser-based tool for scholarly transliteration of Cyrillic text into Latin script. It follows the academic transliteration standard commonly used in Slavic linguistics, especially in German-speaking scholarship.

Ein browserbasiertes Werkzeug zur wissenschaftlichen Transliteration kyrillischer Texte in lateinische Schrift. Es folgt dem in der Slavistik, insbesondere im deutschsprachigen Raum, üblichen wissenschaftlichen Standard.

Браузерный инструмент для научной транслитерации кириллических текстов в латиницу. Он следует академическому стандарту, широко используемому в славистике, особенно в немецкоязычной научной среде.

Supported languages include Russian, Ukrainian, Belarusian, Bulgarian, Serbian, Macedonian, and Old Church Slavonic. Only relevant Cyrillic characters are transliterated; other scripts remain unchanged.

Unterstützt werden Russisch, Ukrainisch, Belarussisch, Bulgarisch, Serbisch, Mazedonisch und Altkirchenslavisch. Translitiert werden nur die entsprechenden kyrillischen Zeichen; andere Schriftsysteme bleiben unverändert.

Поддерживаются русский, украинский, белорусский, болгарский, сербский, македонский и старославянский. Транслитерируются только соответствующие кириллические символы; другие письменности остаются без изменений.

The editor preserves basic formatting such as bold, italics, line breaks, and letter case.

Der Editor erhält die Grundformatierung, darunter Fett- und Kursivsatz, Zeilenumbrüche und Groß- und Kleinschreibung.

Редактор сохраняет базовое форматирование: полужирное и курсивное начертание, переносы строк и регистр букв.

Macros for Russian and Ukrainian Transliteration available verfügbar доступно

A Microsoft Word–based tool for transliterating Russian and Ukrainian text directly inside Word documents according to the scholarly standard widely used in German-language Slavic studies.

Ein Microsoft-Word-basiertes Werkzeug zur Transliteration russischer und ukrainischer Texte direkt in Word-Dokumenten nach dem wissenschaftlichen Standard, der in der deutschsprachigen Slavistik verbreitet ist.

Макрос для Microsoft Word для транслитерации русского и украинского текста прямо внутри документов Word по научному стандарту, принятому в немецкоязычной славистике.

Distributed as a Word template with VBA macros, it preserves ordinary document formatting during transliteration, including character styling and paragraph layout.

Das Werkzeug wird als Word-Vorlage mit VBA-Makros bereitgestellt und erhält bei der Transliteration die übliche Dokumentformatierung, einschließlich Zeichenformatierung und Absatzlayout.

Инструмент распространяется как шаблон Word с VBA-макросами и при транслитерации сохраняет обычное форматирование документа, включая оформление символов и структуру абзацев.

This makes it suitable for revising existing documents, preparing teaching materials, and converting formatted text for academic use without moving it into a separate editor.

Dadurch eignet es sich für die Überarbeitung bestehender Dokumente, die Vorbereitung von Unterrichtsmaterialien und die Umwandlung bereits formatierter Texte für den wissenschaftlichen Gebrauch, ohne dass sie in einen separaten Editor übertragen werden müssen.

Это удобно для правки готовых документов, подготовки учебных материалов и преобразования уже отформатированного текста без переноса в отдельный редактор.

Contact Kontakt Контакты

roman [at] fisun.org