Показать сообщение отдельно
Старый 18.10.2010, 12:35   #9
Carro
Gold Member
 
Регистрация: 23.01.2006
Сообщений: 1,089
По умолчанию

Цитата:
Сообщение от KorvaLOL Посмотреть сообщение
Берутся алгоритмы поиска A,B,C,D,E и дорабатываются напильником до нужной точности\скорости\ресурсое мкости для текущего объекта исследований.
Разрабатывается функция релевантности на базе нечеткой логики. Она и есть основа, выносимая на защиту.

Далее все это в различных модификациях применяется для:
- Устранения дубликатов записей(адреса, названия и др)
- Устранению дублирующейся информации по людям (тоже что и предыдущее, только упор на 5 основных реквизитов Ф, И, О, ДР, МР и добавлена весовая функция из разряда фамилия важнее имени и отчества и тд )
- Поиска по отдельным реквизитам (например требуется в свалке под названием "комментарии коллекторов" найти "ответил отказом" которое может звучать и как "отвтл отк" и как "отказ" и "ответ-отказ")

Потом считается, что было до внедрения, что стало после внедрения.

Как-то так. По сути это то, чем я занимался 3 года на работе.
ну привязки явной к людям мало.. т.е. если вместо людей поставить просто какие -то сущности, в которых какие-то поля являются более приоритетными в смысле выделения первичности, чем другие ... то неважно - люди там или книги...
Я бы убрала в названии всякое упоминание про кредитные организации. В тексте диссертации обобщила бы на общий произвольный случай, а реализацию оттестировала на примере персональных данных. Ну и по 05.13.11. Самая лучшая на мой взгляд специальность... Но там почитайте Wang и Wand - американцы писали про качество данных и очень грамотно и много писали,в том числе и как решать проблемы те, что вы решаете. Просто они другим методом .. Вам бы еще сравнить с другими подходами.
Carro вне форума   Ответить с цитированием
Реклама