Страница: 1 |
Страница: 1 |
Вопрос: Парсинг хтмл страниц
Добавлено: 18.12.06 08:21
Автор вопроса: Champion | Web-сайт:
Доброго дня уважаемые)
программирую я обычно раз в год, и обычно так же часто появляюсь на форуме, но с проблемами, которые уже сам не могу решить однозначно.
вводные данные:
в локальной сети, около 1к фильмов мпег4
создага программулька-плеер, в которую забинденны расшаренные папки с фильмами, т.е. не нужно лазить по всей сети, с поиском фильмов, а весь список фильмов-файлов сразу доступен в проге
задание:)
сделать полное описание фильмов, наподобие имдб.сом , но ессесно на русском, а конкретнее: описание, в ролях, год, жанр и т.д.
т.е. как бы, создать свою базу описаний имеющихся фильмов
пробовал вручную ... наверное уйдёт не один год на это))
у кого была подобная работа?
по сабжу топика, у меня мысль, с каких-то(?) сайтов сдирать всю информацию?
экспериментировал с сайтами dvdmania.ru и dvdselect.ru, через контрол Inet, но там, скорее всего, на сайтах, стоит что-то по типу сторожа), потому что страницы грузятся на не более 2кб
пробовал юзать готовые проги, но не удовлетворяют полученные результаты
на ответ и помощь не надеюсь, но ... она умирает последней)
Ответы
Всего ответов: 12
Номер ответа: 1
Автор ответа:
Sur
ICQ: 1249088
Вопросов: 10
Ответов: 304
Web-сайт:
Профиль | | #1
Добавлено: 18.12.06 13:27
Рекомендую Vbhttp:
http://support.microsoft.com/kb/259100
Это для скачивания страниц, с прокси работает.
Сами скрипты парсинга для своего каталогизатора делал на vbs, если надо, можешь брать.
PS dvdselect.ru - нет проблем
Номер ответа: 2
Автор ответа:
Павел
Администратор
ICQ: 326066673
Вопросов: 368
Ответов: 5968
Web-сайт:
Профиль | | #2
Добавлено: 18.12.06 18:40
Для парсинга лучше всего использовать регулярные выражения. Я уже не
один десяток подобных проектов делал.
Номер ответа: 3
Автор ответа:
Sharp
Лидер форума
ICQ: 216865379
Вопросов: 106
Ответов: 9979
Web-сайт:
Профиль | | #3
Добавлено: 18.12.06 19:22
Поделись базой народом, как сделаешь
Номер ответа: 4
Автор ответа:
Sharp
Лидер форума
ICQ: 216865379
Вопросов: 106
Ответов: 9979
Web-сайт:
Профиль | | #4
Добавлено: 18.12.06 19:23
*базой с народом
Номер ответа: 5
Автор ответа:
Champion
ICQ: 461506481
Вопросов: 38
Ответов: 88
Web-сайт:
Профиль | | #5
Добавлено: 20.12.06 08:23
ту Павел
можно подробнее о чём речь?
ту Sharp
можно в принципе
только куда закинуть вопрос?)
с текущей работой, свободного времени, с месяц ещё не будет ... супермаркет на плечах висит)
час утром, час перед сном) ... всё моё время свободное пока)
ту Sur
за ссылку спасиба, полезная штука
ту олл: если у кого есть желание поработать совместно, то с радостью приму в соавторы))
Номер ответа: 6
Автор ответа:
Sharp
Лидер форума
ICQ: 216865379
Вопросов: 106
Ответов: 9979
Web-сайт:
Профиль | | #6
Добавлено: 20.12.06 16:19
На народ.ру куда-нибудь в архиве.
Номер ответа: 7
Автор ответа:
Павел
Администратор
ICQ: 326066673
Вопросов: 368
Ответов: 5968
Web-сайт:
Профиль | | #7
Добавлено: 20.12.06 16:24
http://vbnet.ru/articles/showarticle.aspx?id=93
Номер ответа: 8
Автор ответа:
Sur
ICQ: 1249088
Вопросов: 10
Ответов: 304
Web-сайт:
Профиль | | #8
Добавлено: 20.12.06 17:29
Как вы определяете на чем пишет автор, vb6 или .net?
Есть же база фильмов огромная, xml, обложки из инета скачиваются по желанию:
http://movies.nnov.ru/cat/www.movies.nnov.ru.xml.rar
Номер ответа: 9
Автор ответа:
Павел
Администратор
ICQ: 326066673
Вопросов: 368
Ответов: 5968
Web-сайт:
Профиль | | #9
Добавлено: 20.12.06 17:37
На чем пишет автор - имеет мало значения. Регулярные выражения можно применять во многих языках программирования, даже на всяких php и c++
Номер ответа: 10
Автор ответа:
Sur
ICQ: 1249088
Вопросов: 10
Ответов: 304
Web-сайт:
Профиль | | #10
Добавлено: 20.12.06 18:10
Сам брал PHP, если надо было что-то пропарсить...
Да, но именно в vb6 регулярки же не встроены. Там что-то подключать надо, MS VBScript Regular expressions? Или не так?
Номер ответа: 11
Автор ответа:
Sur
ICQ: 1249088
Вопросов: 10
Ответов: 304
Web-сайт:
Профиль | | #11
Добавлено: 20.12.06 18:11
Не, не пхп, а перл
Номер ответа: 12
Автор ответа:
Sharp
Лидер форума
ICQ: 216865379
Вопросов: 106
Ответов: 9979
Web-сайт:
Профиль | | #12
Добавлено: 21.12.06 02:30
Какие-то проблемы с подключением VBScript Regular Expressions?