zlo-kazan
Скриптер
- Сообщения
- 374
- Репутация
- 100
С начала подумал, что может быть проще... а задача оказывается не самая тривиальная.
Дано:
База данных с адресами.
Требуется:
Нужно определить с долей вероятности есть ли улица и дом.(true/false) Погрешность в 1-2% не существенна.
Готовый код не нужен. Хочу понять саму концепцию решения данной задачи. (+ писать придется на PHP...)
1-е что подумал это поиск цифры в адресе... но встречается иногда почтовый индекс или "50 лет октября"
2-е это где-то указано ул. пр. пер.... т.е. находя конструкцию "ул.","пр.","пер." + "цифру после неё"
3-е улицы имеет, как правило одинаковые окончания... "ина","ова","овой","ая"...
4-е "проспект","Бульвар","переулок"
5-е Регион только "Республика Татарстан", так что можно перед определением убить индекс, чтобы не мешал. "42[\d]{4,4}"
Возможно, что-то упускаю?
Дано:
База данных с адресами.
Альметьевск Ленина 100
г.Менделеевск, ул.Фомина, д.19 423650
423570 г.Нижнекамск, ул. Площадь 50 лет Октября, д.3а
с.Баз.Матаки, ул.Крайнова, 56
г. Казань, ул. Парковая, 10
Елабужский р-н, с.Т.Дюм-Дюм, ул.Школьная,3
г.Казань, ул.С.Перовской, 150
г. Лаишево, ул. М.Ульяновой,54
г.Агрыз, пер. Нариманова, д.4а
с. Актаныш, пр. Мира, 9
Рыбно-Слободской МР, пгт. Кутлу Букаш
423719,РТ,Мензелинский район,д.Коноваловка
422592, Республика Татарстан, Верхнеуслонский район, с Печищи
г.Менделеевск, ул.Фомина, д.19 423650
423570 г.Нижнекамск, ул. Площадь 50 лет Октября, д.3а
с.Баз.Матаки, ул.Крайнова, 56
г. Казань, ул. Парковая, 10
Елабужский р-н, с.Т.Дюм-Дюм, ул.Школьная,3
г.Казань, ул.С.Перовской, 150
г. Лаишево, ул. М.Ульяновой,54
г.Агрыз, пер. Нариманова, д.4а
с. Актаныш, пр. Мира, 9
Рыбно-Слободской МР, пгт. Кутлу Букаш
423719,РТ,Мензелинский район,д.Коноваловка
422592, Республика Татарстан, Верхнеуслонский район, с Печищи
Требуется:
Нужно определить с долей вероятности есть ли улица и дом.(true/false) Погрешность в 1-2% не существенна.
Готовый код не нужен. Хочу понять саму концепцию решения данной задачи. (+ писать придется на PHP...)
1-е что подумал это поиск цифры в адресе... но встречается иногда почтовый индекс или "50 лет октября"
2-е это где-то указано ул. пр. пер.... т.е. находя конструкцию "ул.","пр.","пер." + "цифру после неё"
3-е улицы имеет, как правило одинаковые окончания... "ина","ова","овой","ая"...
4-е "проспект","Бульвар","переулок"
5-е Регион только "Республика Татарстан", так что можно перед определением убить индекс, чтобы не мешал. "42[\d]{4,4}"
Возможно, что-то упускаю?
