На самом деле задачка оказалась весьма интересная. В документе присутствовало 2 вида "электронной борьбы" с антиплагиатом. Представьте себе документ на 200 страниц, содержащий 2 (два) миллиона знаков. Поделили? Ну, и для полноты ощущений представьте, что еще каждое слово разбито форматированием на несколько частей.
Xml фаил (document.xml), находящийся в архиве (для тех кто не в курсе, docx можно распаковать в папку) занимает 80 Мб. Это без рисунков, если что, рисунки и вложения распиханы по папочкам.
1. Word 2016 для Win и MacOS не открывают исходник
2. Word 2013 для Win не открывает исходник
3. Как обычно выручил
LibreOffice 5, но при замене албанских символов на машине без SSD диска виснет и вылетает по таймауту.
4.
Etxt Антиплагиат разбиение слова форматированием игнорирует, в то же время оригинальность "до обработки" составляла 33%, оригинальность "после обработки" 18%.
Антиплагиат.ру тупо показывает оригинальность 86%. Как говорится, хозяйке на заметку.
Отсюда возникает простенькая задачка, на которую сейчас, увы, совсем нет времени.
Небольшой скрипт на Perl, который в document.xml будет удалять все албанские символы и непонятное форматирование. Посмотрим, если такую ерунду увижу весной у студентов, то точно не поленюсь и напишу.