ПОДГОТОВКА ТЕКСТА
Однако на деле оказалось, что всё не так просто!
Во-первых, разнообразие знаков оказалось достаточно велико: кроме точки, вопросительного и восклицательного знака, имеются ещё многоточия и тире (которыми у Толкиена оканчиваются фразы, обрывающиеся на полуслове). Наконец, могут быть сложные знаки (когда в конце фразы ставится, например, «?!» или «!!» и т.п.) К счастью, Толкиен этим не злоупотреблял, и на весь «ВК» обнаружился всего один такой случай – «многоточие»+«вопрос» в конце одной из фраз в «Осаде Гондора». Для удобства подсчетов я его просто заменил на «?».
Многоточия я также заменил контекстной заменой на «.», предварительно подсчитав их количество по главам. В противном случае, при подсчете количества точек, каждое предложение, оканчивающееся многоточием, засчитывалось бы за три отдельных предложения, что, конечно, нехорошо. При этом пришлось учесть, что в том варианте электронного текста «ВК», которым располагал я, многоточия передавались тремя разными способами: «…», «. . .» и «...».
Во-вторых, требовалось избавиться от аббревиатур. Опять-таки в тексте «ВК» я нашел только две - «Mr.» и «Mrs.» Наличие точек при этих сокращениях опять-таки внесло искажения в результаты подсчета количества предложений. Ну, и кроме того, при анализе средней длины слова в тексте правильнее, как мне показалось, использовать полные формы, а не аббревиатуры – ведь в голове читателя при чтении они звучат именно в своей полной форме, а не как аббревиатуры. Так что я счел необходимым через контекстный поиск заменить «Mr.» и «Mrs.» на «Mister» и «Mistress» соответственно.
Третью проблему составляют восклицания - «behold!», «lo!», «Alas!», «O!», «Oi!», «Ah!», «Oh!», «Ho!», «Hi!» (там, где это не означает «привет!»), «Hey!», «Ugh!», «Whoa!», «Hush!» («Hsh!»), «There!» (там, где это используется в качестве междометия, а не указательного местоимения) и «Well!» (там, где это междометие, а не наречие). Беда в том, что в некоторых случаях они являются, что называется, предложениеобразующими, а в некоторых – нет, и автоматической контекстной заменой здесь проблему не решить. Сравните, например: «And behold! when he washed the mud away….» и «They were terrible to behold! But why….» Или «`Alas! yes,' said Elrond.» и «But it would not stop with that, alas! We will not speak more….»
Мы видим, что подсказку-то Толкиен дает: если после восклицания текст продолжается с маленькой буквы, значит, восклицание не было предложениеобразующим. Но как эту проверку автоматизировать, я не придумал, и потому разбираться с восклицаниями пришлось ручным контекстным поиском.
Наконец, последнее, с чем пришлось разобраться, - это изобилующее восклицательными знаками описание звона набата в главе «A Knife in the Dark». Наверно, можно было бы много дней медитировать над вопросом, следует или нет перед подсчетом количества предложений заменить эти восклицательные знаки на запятые. Но, к счастью, подсказку дал сам Толкиен - в главе «Очищение Шира» в аналогичном описании набата много запятых и мало восклицаний. Перед подсчетом количества предложений я аналогичным образом изменил описание набата в главе «A Knife in the Dark».
И лишь после всей этой подготовки приступил к подсчетам количества предложений.
Результат получился таким:






После этого я решил, что подготовку можно пока прервать и, наконец, попробовать на основании имеющихся параметров разбить главы по стилям.
О том, что получилось, - в следующей публикации! 😊
(продолжение следует!)
Journal information