Парсер для сайта cian.ru.
- csv-таблица (csv-файл; вариант по умолчанию).
- excel-таблица (xlsx-файл).
Оптимальная стратегия запуска - как задание для cron.
Например, установить параметр "показывать объявления за последние N часов", а далее добавить как cron-задачу с запуском каждые N часов. Таким образом, после каждого запуска на выходе будут только появившиеся с последнего запуска новые объявления.
- с использование параметров из конфига.
- с произвольным query-запросом.
По отсутствии параметров запуска, приложение запускается в режиме использования параметров из файла конфигурации application.conf
.
- -h, --help - показать справку.
- -x, --excel - вывод данных в формате excel.
- -q, --query - использовать query-запрос для получения данных (после параметра указать её).
- -c, --config - брать параметры из файла конфигурации (после параметра указать путь к файлу).
Можно получить, сделав самостоятельно запрос на cian.ru и убрав из него префикс вида https://www.cian.ru/cat.php?
.
Сделана с расчетом на поиск жилья в Москве. В случае, если возможно несколько значений одного и того же параметра, перечисление должно быть через запятую.
Структура файла конфигурации представляет собой следующее:
-
rooms:
- number = ... - число комнат. Поддерживаемые параметры - число от 1 до 6, 'open_plan' для свободной планировки и 'studio' для студии. Возможно несколько значений.
-
prices
- min_price = ... # минимальная цена. Значения - положительные числа.
- max_price = ... # максимальая цена. Значения - положительные числа не меньше минимальной цены.
-
duration
- months = ... # длительность аренды в месяцах. Меньше 12 - "на несколько месяцев", больше - "от года".
-
published
- hours = ... # максимальное время, прошедшее с момента публикации объявления.
-
metro
- stations = ... # станции метро в виде строк. Возможно несколько значений.
- radius = ... # расстояние до станций метро в минутах
- only_foot = ... # флаг, показывающий, считается расстояние до метро пешком или на транспорте.