Правильный OCR
Занялся переводом в цифру словарей из своей библиотеки. Для начала в *.docx. Начал с Trask, R. L. The Penguin Dictionary of English Grammar (Penguin Reference Books). — L.: Penguin Books, 2000. — 160 р. Параллельно читаю, как правильно распознавать и вычитывать текст.
Читать дальше
Сколько букв в русском алфавите?
Один из моих любимых языковедческих вопросов. Казалось бы, 33. Ан нет - 32. Но куда интереснее, что в “Longman Dictionary of Language Teaching and Applied Linguistics” (J.C. Richards, R. Schmidt, 2002) вообще говорится, что в русском алфавите 31 буква:
alphabet n alphabetic adj
a set of letters which are used to write a language. <...>
The Russian alphabet uses cyrillic script and consists of 31 letters <...>
Опечатка?
Только глупец…
R.L.Trask, Dictionary of English grammar:
It is a common error to suppose that a double negative is equivalent to a positive. For example, I didn’t see nobody plainly does not mean ‘I saw somebody’, and nobody but a fool would think that it does.
Хорошее уточнение в лингвистическом словаре.
Черт…
Чёрт, нужны еще два уровня в базе данных двуязычного словаря. Ну вот кто бы мог подумать, что для представления в БД записей, где встречаются точка с запятой и запятая, необходимы две дополнительные таблицы. Не проблема, конечно. Сделаю. Занятно то, что оптимальную структуру БД при двуязычной лексикографической работе заранее совершенно не предугадать. Как итог: переорганизация данных в ходе работы. Ну и закономерное: только приведешь в порядок одну область словаря, как всплывает несколько новых совершенно неожиданных проблемных зон.
Вы уже в курсе про закон о самых правильных словарях?
Тогда идите по этим ссылкам и читайте:
http://www.rg.ru/2009/08/21/russkiy-slovari-dok.html
http://web.rambler.ru/archive/?id=29301
http://www.mr-msk.ru/story/story_5296.html
В списке нет орфографического словаря В.В.Лопатина, много лет возглавлявшего орфографическую комиссию (!). Нет словаря Н.В.Соловьева с замечательными и подробными комментариями ко всем (!) словам.
“…просто издательства не подавали заявок в комиссию…” - за это, блять, бить надо. И говорящих такое, и комиссию, и Фурсенко вместе с министерством.
С дем знаний, дорогие товарищи!
TshwaneLex Suite 4.0 нервно курит в стороне
Ну не прелесть ли?
![]() |
(картинка кликабельна)
Читать дальше
Альтернативы топонимов
Это моя давняя мечта: собрать словарь поэтических и альтернативных названий географических объектов. Туда точно войдут город на семи холмах (Рим) и город желтого дьявола (Нью-Йорк), Туманный Альбион (Англия) и страна в двух шагах от рая (Андалуссия). Добавить сюда уральскую Швейцарию (Ильменский заповедник), а также все прочие швейцарии и альпы со всеми младшими братьями и сестрами Байкала (Тургояк, Телецкое озеро и прочие). Вот только что узнал, что тибетское название Бутана - Страна драконов грома. Красиво. Гораздо красивее, чем унылые топонимы типа Российская Федерация, Соединенные Штаты Америки…
Abbyy и ее вакансии
Впервые об открытой вакансии лексикографа я узнал года три-четыре назад. Вернее так: четыре года назад я увидел объявление, в котором говорилось, что компании Abbyy нужны лексикографы. Недавно мне попалось новое объявление этой же компании, но с тем же посылом: все также нужны лексикографы.
Читать дальше
Знаете ли вы, что…
Лексикографические сети принесли тьму находок. Рунет - это мужская территория. И достаточно извращенная. Например, знаете ли вы, что судя по запросам к Яндексу, тринадцатилетние, четырнадцатилетние, …, девятнадцатилетние - исключительно девочки. Раздетые - тоже девочки и девушки. Маленькие - девочки. Пьяненькие - девушки. Зато переодетые - мальчики и мужчины.

