Парсер групп вконтакте.
-
Делюсь своим парсером групп вконтакте. Может кому пригодиться. За подсказки в плане доработки буду благодарен. В БАС я новичок, так что, возможно, многие решения делаются проще, чем у меня, однако скрипт рабочий и работает быстро.
0_1523028002695_VKGroupPharser.xml
Настройки такие:
Количество потоков - тут всё понятно. Единственное, по дефолту скрипт запрашивает для каждого потока отдельный файл с настройками аккаунта (настройки аккаунтов описаны далее). Хотите - сделайте многопоток с одного аккаунта, только в разумных пределах, а то забанят ещё...
Ключевое слово - слово или словосочетание, которое будет поисковым запросом на сайте.
Путь к файлу БД - указываем свой, что писать в файле опишу ниже.
Путь к выходным файлам - папочка, в которую будут сохраняться результаты парсинга. Неплохо было бы ещё уникализировать имена сохраняемых файлов, пока не реализовал, но думаю в конец имени файла добавлять текущую дату и время.
С параметрами поиска тоже всё понятно, думаю, проблем не возникнет. 0 - безопасный поиск отключен, 1 - включен.
Заполнение базы данных:
Тут у нас тупо список ссылок на файлы, содержащие настройки аккаунтов для каждого отдельного потока. Если поток один, вам нужна всего одна строчка со ссылкой на один файл. Многопоток сделал потому, что в ближайшее время буду делать поиск по множеству ключевиков сразу, пока что скрипт работает так, что во множестве потоков его запускать бессмысленно - результат у всех потоков будет один и тот же. Когда реализую множество запросов, скину результат. Пока сам работаю только с одним потоком.
Файл для отдельного аккаунта:
Первая строка - прокси:порт.
Вторая строка - наш логин в вк.
Третья строка - пароль от вк.
Четвёртая и пятая - ширина/высота дисплея (для уникализации).Планирую ещё каждому акку настроить рандомный отпечаток браузера, чтобы уж совсем комильфо было.
Пока так. Пользуйтесь, дорабатывайте.
Если кому-то понравилась моя фишка с называнием переменных по имени содержащей их функции - берите на вооружение, существенно облегчает поиск нужной переменной или отладку функции когда много "кода")))
-
Да, и у меня там грамматическая ошибка в слове "parser", но не думаю что русскоязычную аудиторию это будет смущать)))