Что нового

Нужен ли маленький faq по парсингу?

AlexxxRu

Знающий
Сообщения
19
Репутация
6
Нашёл на компьютере документ, где описано как парсить кинопоиск.
Скриншоты, описание заголовков, примеры регулярных выражений и т.д.
В теме "Автоматизация IE и Web-интерфейса" не нашёл подобного, хотя вопросов было очень много.
Когда самому было это нужно, то информацию добывал по крохам из разных ветвей форума и гугла.
Если этот faq немного доделать, то мб получится что-то полезное.
Написано на примере функций TCP.

Нужно ли это?
 

kaster

Мой Аватар, он лучший самый
Команда форума
Глобальный модератор
Сообщения
4,020
Репутация
626
если там все правильно и хорошо описано, то думаю нужно.
 

CreatoR

Must AutoIt!
Команда форума
Администратор
Сообщения
8,673
Репутация
2,484
Нужен!

Но уклон должен быть не конкретно на какой то один сайт, а на любой сайт который можно спарсить.
Кинопоиск можно просто указать как пример, на нём демонстрировать построение парсинга.
 

C2H5OH

AutoIT Гуру
Сообщения
1,473
Репутация
333
Нужен или нет не знаю, но заинтересовал. :scratch:
Показывай что получится.
 
Автор
A

AlexxxRu

Знающий
Сообщения
19
Репутация
6
Переделав большую часть получилось вот это.
http://rghost.ru/41889620
Если нужен - размещу и отредактирую (спойлеры и т.д. и т.п.)
Если не нужен, то и чёрт с ним.

Если расписывать, то тема оказалась ОЧЕНЬ большой. ЧТо немного смутило количеством букв. И он получился совсем не маленький.


Добавлено:
Сообщение автоматически объединено:

Забыл оставить полный исходный код.
Код:
#include <array.au3>
$Headers = 'GET /film/386715/ HTTP/1.1'&@CRLF
$Headers &= 'Host: www.kinopoisk.ru'&@CRLF
$Headers &= 'User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1'&@CRLF
$Headers &= 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'&@CRLF
$Headers &= 'Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3'&@CRLF
$Headers &= 'Connection: close'&@CRLF&@CRLF
TCPStartup()
$ip = TCPNameToIP("www.kinopoisk.ru")
$socket = TCPConnect($ip,80)
$Bytes = TCPSend($socket,$Headers)
$HTML = ""
while 1
        $RecBuff = TCPRecv($socket,1)
        If @error <> 0 Then ExitLoop(1)
        If $RecBuff <> '' Then $HTML &= $RecBuff
    WEnd
$result = StringRegExp($HTML, '<meta name="mrc__share_description" content="(.*?)" />',3)
_ArrayDisplay($result)
 

Belfigor

Модератор
Локальный модератор
Сообщения
3,608
Репутация
941
Неплохо неплохо, но в оформленном виде было бы вообще шикарно :smile:
 
Автор
A

AlexxxRu

Знающий
Сообщения
19
Репутация
6
И исправить ошибки. Там с этим очень грустно всё.


Добавлено:
Сообщение автоматически объединено:

В конечном итоге нужно?
Переоформлять и выкладывать?
Если да, то куда?
Что-то добавить?
 
Верх