PDA

View Full Version : Ну и как ломать веб-страничку ?



crazy-mike
07-23-2015, 09:27 AM
Ну серьёзно.
Вот зашли на http://непонятно-куда.чёрти-где.поломать/
И что дальше?
Ну показывает страничка что-то. Смотрим на "посмотреть исходный код страницы"
и видим:


<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>страничка , которую надо поломать</title>
<style type="text/css" media="all" >
body { color :white; background-color :blue; }
</style>
</head>
<body>
</body>
</html>

Ну и что там можно поломать?
Ну наберём http://непонятно-куда.чёрти-где.поломать/index.html
И опять увидим всё такое же. И что дальше?

Ангел
07-23-2015, 09:34 AM
Ну серьёзно.

Ну и что там можно поломать?

Кто то для тестов каких то домен наверное брал.. сейчас висит заглушка просто )
Возможно еще есть страницы.. которые можно сломать)

crazy-mike
07-23-2015, 09:39 AM
Кто то для тестов каких то домен наверное брал.. сейчас висит заглушка просто )
Возможно еще есть страницы.. которые можно сломать)

Ну так как же её ломать-то ??????
Ну списали код странички к себе на комп по "save as *.html". А толку ?
Да - внутри сохранённого можно себе нарисовать любое ругательство любым шрифтом и даже вставить ссылку на эротическое-видео-с-неприличным-смыслом. А обратно на сервер это как впихнуть?

Sixteen
07-23-2015, 09:39 AM
Ну серьёзно.
Вот зашли на http://непонятно-куда.чёрти-где.поломать/
И что дальше?
Ну показывает страничка что-то. Смотрим на "посмотреть исходный код страницы"
и видим:


<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>страничка , которую надо поломать</title>
<style type="text/css" media="all" >
body { color :white; background-color :blue; }
</style>
</head>
<body>
</body>
</html>

Ну и что там можно поломать?
Ну наберём http://непонятно-куда.чёрти-где.поломать/index.html
И опять увидим всё такое же. И что дальше?


Низнаю, но можно папытаца паламать уеб сервер каторый ее сервает, путем засцыланья в него странных реквестов, надеясь на буферный оверфлоу и инджекшен какого нибудь кода в стек сервера. Крутые поцоны демонстрировали что это было возможно, на всяческих древних серверах. Сам то я так не умею, но с удовольствием читал про эксплоиты. Малалцы люди, и не жалеют себя ниразу.

Ангел
07-23-2015, 09:46 AM
Ну так как же её ломать-то ??????
Ну списали код странички к себе на комп по "save as *.html". А толку ?
Да - внутри сохранённого можно себе нарисовать любое ругательство любым шрифтом и даже вставить ссылку на эротическое-видео-с-неприличным-смыслом. А обратно на сервер это как впихнуть?

Майки.. хорош прикалываться ) Эту страничку конкретно никак.. сам же знаешь) Вон правильно 16-ый говорит.. посмотреть в сторону уязвимости сервера. Вот только оно тебе надо ?))))

crazy-mike
07-23-2015, 09:49 AM
Низнаю, но можно папытаца паламать уеб сервер каторый ее сервает, путем засцыланья в него странных реквестов, надеясь на буферный оверфлоу и инджекшен какого нибудь кода в стек сервера. Крутые поцоны демонстрировали что это было возможно, на всяческих древних серверах. Сам то я так не умею, но с удовольствием читал про эксплоиты. Малалцы люди, и не жалеют себя ниразу.
Обычно число реквестов с одного и того же источника за маленький промежуток времени на сервере ограничивают.
А если число "бессмысленных реквестов" превышает 16 ( или вообще 4 ), то просто блокируют запросы по адресу источника.
И делает это даже не сам веб-сервер, а сервер-доступа ( вместе с каким-нибудь "обратным прокси" - ngnix или ещё что-то похожее ).
ddos на гейте блочится. ( на cisco такие функции случаются , а ещё "неполные tcp-запросы" фильтруются через "пересборку пакетов" - такой даже на свичах 3го уровня можно делать ).

crazy-mike
07-23-2015, 09:55 AM
Майки.. хорош прикалываться ) Эту страничку конкретно никак.. сам же знаешь) Вон правильно 16-ый говорит.. посмотреть в сторону уязвимости сервера. Вот только оно тебе надо ?))))

Я не прикалываюсь , а спрашиваю как при помощи видимого кода странички ( в котором вообще тупо ничего не видно ) можно стырить данные ?
Упростим задачу:


<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>тестовая страничка</title>
</head>
<body>
</body>
<script src="http://www.neverland.nowhere/application.app"></script>
</html>

Sixteen
07-23-2015, 10:00 AM
Обычно число реквестов с одного и того же источника за маленький промежуток времени на сервере ограничивают.
А если число "бессмысленных реквестов" превышает 16 ( или вообще 4 ), то просто блокируют запросы по адресу источника.
И делает это даже не сам веб-сервер, а сервер-доступа ( вместе с каким-нибудь "обратным прокси" - нгних или ещё что-то похожее ).
ддос на гейте блочится. ( на цисцо такие функции случаются , а ещё "неполные тцп-запросы" фильтруются через "пересборку пакетов" - такой даже на свичах 3го уровня можно делать ).

десять лет назад сеть была папросче, никто о таких блокерах и анти ддосах и не думал даже.
но ответь на такие вопросы: ты можешь определить что там за сервер и каков его патч левел?
если да, то ты можешь уже попытатса создать для него хак. если ты крут то ты создашь такой хак, протестируешь его на своем собственном сервер, после чего деплойнешь его на собсна чужой сервер. в целом это до жопы работы. мне было б лень. тока за бальшие деньги.

crazy-mike
07-23-2015, 10:02 AM
десять лет назад сеть была папросче, никто о таких блокерах и анти ддосах и не думал даже.
но ответь на такие вопросы: ты можешь определить что там за сервер и каков его патч левел?
если да, то ты можешь уже попытатса создать для него хак. если ты крут то ты создашь такой хак, протестируешь его на своем собственном сервер, после чего деплойнешь его на собсна чужой сервер. в целом это до жопы работы. мне было б лень. тока за бальшие деньги.
Даже десять лет назад пересборка пакетов на свичах и роутерах защищала от ддсов. Там ещё и arp-флудом тогда боролись.
А если ещё и "веб-сервер" , который собираешья "хакнуть" - "виртуальный" ??????? ( работает на сервере приложений на какой-то из виртуальных машин )

Sixteen
07-23-2015, 10:04 AM
Даже десять лет назад пересборка пакетов на свичах и роутерах защищала от ддсов. Там ещё и арп-флудом тогда боролись.

я ж тебе не толкаю ддос как решение проблемы. майк, стей он зер сабджект!
как ломать эту хрень? без знания о сервере мне кажетса што никак. скажи теперь ты свое веское слово.

crazy-mike
07-23-2015, 10:07 AM
я ж тебе не толкаю ддос как решение проблемы. майк, стей он зер сабджект!
как ломать эту хрень? без знания о сервере мне кажетса што никак. скажи теперь ты свое веское слово.

Да - без знания сервера никак. Ко всему прочему если интересуют данные , которые выдаёт "веб-приложение" - то ломать хочется именно "веб-приложение". А сервер как раз должен нормально работать , чтобы "веб-приложение" исправно выдавало данные , которые мы собираемся с него "тырить".

Мало того - нам нужна некоторая гарантия того , что сервер работает без глюков и стыреным данным можно доверять ( шифры, пароли , явки , списки агентов и т.д. ).

Sixteen
07-23-2015, 10:10 AM
Да - без знания сервера никак. Ко всему прочему если интересуют данные , которые выдаёт "веб-приложение" - то ломать хочется именно "веб-приложение". А сервер как раз должен нормально работать , чтобы "веб-приложение" исправно выдавало данные , которые мы собираемся с него "тырить".

дапустим ты хочеш палучить доступ к терминалу сервера, в режиме [sudo]

crazy-mike
07-23-2015, 10:13 AM
дапустим ты хочеш палучить доступ к терминалу сервера, в режиме [sudo]


Допустим , что сервер не работает с терминалами на внешних адресах. Допустим , что он запущен под виртуальной машиной , на которой вообще нет терминалов даже на внутренних адресах ( так можно делать - просто сервис терминалов расположен на совсем другой виртуальной машине ).

P.S. Прикинь - мы не собираемся мешать работе серверов. Мы просто хотим украсть данные. И украсть их "точно вовремя" - через месяц они уже неактуальным становятся. И таже через неделю "устаревают".

Sixteen
07-23-2015, 11:10 AM
Памоему ничо не выйдет. Нипалучица красть данных,

если канешно там нет приятной админ консоли для управления ЛАМПой м канкретно ее майэскюэл аспектом с дефолт паролем.
тогда данные можно красть легко.

crazy-mike
07-23-2015, 12:45 PM
Памоему ничо не выйдет. Нипалучица красть данных,

если канешно там нет приятной админ консоли для управления ЛАМПой м канкретно ее майэскюэл аспектом с дефолт паролем.
тогда данные можно красть легко.

в принципе можно и без админ-консоли. На пост-совке сложился рынок т.н. парсеров сайтов. Есть сайты с бизнес-офертами ( продажа недвижимости и т.д.). Парсер сайта запускается с какого-то другого сервера , делает http get и получает ответы. - имитирует клики на кнопки ( send :111: ) и получает респонсы в виде html , которые парсит. Вполне легальный бизнес - пост-совковые риэлтэры так свои БД оферт пополняют "на халяву" , например.
P.S. я специально приводил два примера страничек в начале темы , которые таким способом принципиально не парсятся , если весь контент динамически создается из JavaScript через DOM API - такие "парсеры" ведь не полностью из себя изображают браузер и не поддерживают внутри себя JavaScript - хотя можно было к парсеру прилинковать библиотеку WebKit , например , чтобы парсер для веб-сервера выглядел aka браузер Google Chrome. :111:

neet
07-23-2015, 12:48 PM
зет из тру

crazy-mike
07-23-2015, 12:54 PM
зет из тру

зет из трус аут оф зер :111:

химик
07-23-2015, 10:18 PM
Майк если страница статическая то никак - можно сервер грохнуть есть масса путей но не форуме же об этом писать ... а вот если страничка интерактивная то уже становится интересней ... особенно если бекэнд какая нибудь база данных ;)

химик
07-23-2015, 10:20 PM
Допустим , что сервер не работает с терминалами на внешних адресах. Допустим , что он запущен под виртуальной машиной , на которой вообще нет терминалов даже на внутренних адресах ( так можно делать - просто сервис терминалов расположен на совсем другой виртуальной машине ).

P.S. Прикинь - мы не собираемся мешать работе серверов. Мы просто хотим украсть данные. И украсть их "точно вовремя" - через месяц они уже неактуальным становятся. И таже через неделю "устаревают".

SQL injection is your friend ;)

crazy-mike
07-24-2015, 01:20 AM
Майк если страница статическая то никак - можно сервер грохнуть есть масса путей но не форуме же об этом писать ... а вот если страничка интерактивная то уже становится интересней ... особенно если бекэнд какая нибудь база данных ;)
дело в том , что страничка ведь как раз динамическая , но по внешнему виду ( через просмотр кода страницы ) выглядит как "пусто-пусто" в домино. ( я уже приводил пример ).
Мало того - даже если её "стырить" по file_get_contents("http://.....") каким-нибудь "очень умным php-скриптом , то это всё равно ничего не даст , потому что "вся логика создания динамического контента" ( в том числе и вся "интерактивность" ) спрятана внутри скрипта.

crazy-mike
07-24-2015, 01:22 AM
SQL injection is your friend ;)

Не френд. - Потому что некуда инжектить. Представь , что добрался через "просмотр кода страницы" до "текста скрипта на странице" и не видишь там вообше ни одного SQL-запроса.

Ангел
07-24-2015, 01:29 AM
Так тебе шашечки или ехать ??
Тебе спарсить контент надо.. или сломать ??

crazy-mike
07-24-2015, 01:34 AM
Так тебе шашечки или ехать ??
Тебе спарсить контент надо.. или сломать ??

ты уже видел "код странички" - "парсить" оттуда просто нечего ( да и ломать вообще-то тоже ). Но ведь хочется же! :111:
( видео граберы , например , умудряются определять src для динамически созданного внутри скрипта тега video - это как раз почти понятно как - видеопоток ведь в браузер всё равно откуда-то идёт )



<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>Как это поломать-распарсить?</title>
</head>
<body>
</body>
<script src="http://www.neverland.nowhere/application.js"></script>
</html>

crazy-mike
07-24-2015, 05:29 AM
Кстати - "Русскую Америку" вообще-то можно "парсить" и даже "тырить".



<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!-- BEGIN TEMPLATE: SHOWTHREAD -->

<html xmlns="http://www.w3.org/1999/xhtml" dir="ltr" lang="ru" id="vbulletin_html">
<head>
<!-- BEGIN TEMPLATE: headinclude -->
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1251" />
<meta id="e_vb_meta_bburl" name="vb_meta_bburl" content="http://forum.russianamerica.com/f" />
<base href="http://forum.russianamerica.com/f/" /><!--[if IE]></base><![endif]-->
<meta name="generator" content="vBulletin 4.2.0" />

<link rel="Shortcut Icon" href="favicon.ico" type="image/x-icon" />
......
<div class="bbcode_container">
<div class="bbcode_quote">
<div class="quote_container">
<div class="bbcode_quote_container"></div>

<div class="bbcode_postedby">
<img src="images/misc/quote_icon.png" alt="Цитата" /> Сообщение от <strong>химик</strong>
<a href="showthread.php?p=7223407#post7223407" rel="nofollow"><img class="inlineimg" src="images/buttons/viewpost-right.png" alt="Посмотреть сообщение" /></a>
</div>
<div class="message">SQL injection is your friend ;)</div>

</div>
</div>
</div>
<!-- END TEMPLATE: bbcode_quote -->Не френд. - Потому что некуда инжектить. Представь , что добрался через &quot;просмотр кода страницы&quot; до &quot;текста скрипта на странице&quot; и не видишь там вообше ни одного SQL-запроса.
</blockquote>
</div>


</div>
</div>

<div class="after_content">



<!-- BEGIN TEMPLATE: ad_showthread_firstpost_sig -->

<!-- END TEMPLATE: ad_showthread_firstpost_sig -->


<blockquote class="signature restore"><div class="signaturecontainer" rel="nofollow">Жизнь дается человеку один раз и прожить ее надо так, чтобы не ошибиться в рецептах<br />
Именем его императорского величества объявляю ревизию сему сумасшедшему дому! Ну почему меня в этот исторический момент так тошнит?</div></blockquote>


</div>

<div class="cleardiv"></div>
</div>
</div>
<div class="postfoot">
<!-- <div class="postfoot_container"> -->
<div class="textcontrols floatcontainer">
<span class="postcontrols">
<img style="display:none" id="progress_7223463" src="images/misc/progress.gif" alt="" />



<a id="qrwq_7223463" class="newreply" href="newreply.php?do=newreply&amp;p=7223463" rel="nofollow" title="Ответить с цитированием"><img id="quoteimg_7223463" src="clear.gif" alt="Ответить с цитированием" /> Ответить с цитированием</a>
<span class="seperator">&nbsp;</span>


<a class="multiquote" href="newreply.php?do=newreply&amp;p=7223463" rel="nofollow" onclick="return false;" id="mq_7223463" title="Multi-Quote This Message"><img id="mq_image_7223463" src="clear.gif" alt="Multi-Quote This Message" />&nbsp;</a>

</span>
<span class="postlinking">

Ангел
07-24-2015, 05:36 AM
Кстати - "Русскую Америку" вообще-то можно "парсить" и даже "тырить".


Ты посмотри код чата.. особенно форума чатовского.. его положить может любой школьник )

crazy-mike
07-24-2015, 05:41 AM
Ты посмотри код чата.. особенно форума чатовского.. его положить может любой школьник )

Я ведь объяснил проблему - если контент в броузер доставляется не прямо с сервера , по http-get , а через XMLHttpRequest ( запрос AJAX ) - то ты его через "просмотр кода страницы" никогда не увидишь. Соответственно если ты страницу читаешь по http-get и при этом не выполняешь JavaScript на этой странице - то не можешь подглядеть на данные , которые генерируются на этой странице.
Т.е. ты не можешь таким способом ничего стырить - ни тексты рекламных объявлений о продаже славянского шкафа, ни сообщения о шифрах-паролях-явках , ни последние сводки о состоянии местного рынка щетины.

химик
07-24-2015, 06:43 PM
Я ведь объяснил проблему - если контент в броузер доставляется не прямо с сервера , по http-get , а через XMLHttpRequest ( запрос AJAX ) - то ты его через "просмотр кода страницы" никогда не увидишь. Соответственно если ты страницу читаешь по http-get и при этом не выполняешь JavaScript на этой странице - то не можешь подглядеть на данные , которые генерируются на этой странице.
Т.е. ты не можешь таким способом ничего стырить - ни тексты рекламных объявлений о продаже славянского шкафа, ни сообщения о шифрах-паролях-явках , ни последние сводки о состоянии местного рынка щетины.

Майк ежу понятно нужно понять логику обратной связи а уж потом думать... Но если страница не интерактивная (ну то есть от юзера импут не принимает) то дело довольно дохлое - надо валить сервак

crazy-mike
07-25-2015, 01:21 AM
Майк ежу понятно нужно понять логику обратной связи а уж потом думать... Но если страница не интерактивная (ну то есть от юзера импут не принимает) то дело довольно дохлое - надо валить сервак
Ну откуда у вас всех там такие "замашки медвежатников" ? :111:
Я ведь уже объяснил - если "валить сервак" , то просто не получишь "требуемые данные".
Есть предположение , что должен существовать какой-то другой способ. webkit - это ведь библиотека. Т.е. можно скомпилировать что-то , изображающее из себя браузер , но заставляющее "выполняться" JavaScript с такой странички. Можно и без webkit. Не так уж и сложно "парсить" собственно "код JavaScript" ( при помощи lex, awk, bison и т.д. и т.п. ). Ко всему прочему ведь и по-настоящему заниматься "грамматическим разбором" не обязательно. - просто поискать "сигнатуры" - вхождения "XmlHttpRequest" , "SQL" ( вдруг разработчики приложения "расслабились" ? ) и т.д.

Ангел
07-25-2015, 01:58 AM
Ну откуда у вас всех там такие "замашки медвежатников" ? :111:
Я ведь уже объяснил - если "валить сервак" , то просто не получишь "требуемые данные".
Есть предположение , что должен существовать какой-то другой способ. webkit - это ведь библиотека. Т.е. можно скомпилировать что-то , изображающее из себя браузер , но заставляющее "выполняться" JavaScript с такой странички. Можно и без webkit. Не так уж и сложно "парсить" собственно "код JavaScript" ( при помощи lex, awk, bison и т.д. и т.п. ). Ко всему прочему ведь и по-настоящему заниматься "грамматическим разбором" не обязательно. - просто поискать "сигнатуры" - вхождения "XmlHttpRequest" , "SQL" ( вдруг разработчики приложения "расслабились" ? ) и т.д.

Так тогда тебе не ломать надо.. а спарсить контент... конечно просто спарсить не получится... только с танцами с бубном )
И сервер надо не валить.. а получить root.

crazy-mike
07-25-2015, 02:50 AM
И сервер надо не валить.. а получить root.
самое прикольное - у него может не быть root вообще. ( виртуальный сервер - в т.ч. на виртуальной машине. Ну ещё ведь и "контейнеры" есть )

химик
07-25-2015, 01:00 PM
Так тогда тебе не ломать надо.. а спарсить контент... конечно просто спарсить не получится... только с танцами с бубном )
И сервер надо не валить.. а получить root.

Эт если долбаные апачи или томкет на линуксе ... но может и на виднах для безопасности :)

crazy-mike
07-26-2015, 02:03 AM
Эт если долбаные апачи или томкет на линуксе ... но может и на виднах для безопасности :)
апач совсем не под root запускается.

XCNY
07-28-2015, 09:06 AM
Вы тут вэб странички ломаете,а кто то кибер атаку готовит, на все андроидные устройства типа.Через ММС как вроде проникновение будет,дыру там надыбали...Если что ,то может это последний пост из моего андройда смартфона.)))

Sixteen
07-28-2015, 09:51 AM
фу какие ви нудные.
майкуша, а я пришол за твоей кровью.
патаму што ты виноват.
я внимательно изучил наинуднейшую повестуху под названием "день звездных городов" так же известную как "эра чудес". ну и нудная же говнида. надо сказать что русский перевод ее слехка улучшил, но только слехка.
ее занудность и никчемушность тем не менее не мой главный фокус.
мой главный фокус это твое утверждение что стругачи скамуниздили оттуда пикник на обочине.
дык вот. ничего они не коммуниздили. из этой нудоты нечего коммуниздить.
если пересказывать сюжет кратко, то вот что получится:
поналетели какие-то иностранцы, взорвали все ядерные боеприпасы, и понастроили на Земле интергалактических хайвеев. мусор с хайвеев
стал ценным спекулятивным коммодитизом, но это для сюжета повести совершенно не важно. пока дураки спекулировали мусором,
умные людишки хоть и кретины но таки научились этими хайвеями пользоваться и в результате задумали расселиться по всей галактике, и в конце по этому поводу сильно возликовала пианэрия.

общего с пикником на обочине только вот:
(а) кто-то поналетел
(б) кто-то спекулировал мусором.

точка (а) не является чем-то таким. есть сотни произведений где кто-то поналетел и даже вторгся и нагадил.

точка (б) слехка более важна в связи с тем что существует довольно мало произведений где люди спекулируют внеземным гарбиджем.
но если для пикника точка (б) центральная для повествования, то для эры чудес она крайне второстепенна и не сюжетообразующа.

Слово "пустышка" отсутствует в каком-либо виде в английском оригинале.
Но зато присутствует в русском переводе, что вызывает ржачь и доставляет.

Майкуша, изза тебя я прачитал крайне скучную и нудную хрень, да еще и на двух языках. Ты виноват! И паэтому я буду тебя кусать больно в качестве кампенсации. Прямо за голову.

crazy-mike
07-28-2015, 01:03 PM
фу какие ви нудные.
майкуша, а я пришол за твоей кровью.
патаму што ты виноват.
я внимательно изучил наинуднейшую повестуху под названием "день звездных городов" так же известную как "эра чудес". ну и нудная же говнида. надо сказать что русский перевод ее слехка улучшил, но только слехка.
ее занудность и никчемушность тем не менее не мой главный фокус.
мой главный фокус это твое утверждение что стругачи скамуниздили оттуда пикник на обочине.
дык вот. ничего они не коммуниздили. из этой нудоты нечего коммуниздить.
если пересказывать сюжет кратко, то вот что получится:
поналетели какие-то иностранцы, взорвали все ядерные боеприпасы, и понастроили на Земле интергалактических хайвеев. мусор с хайвеев
стал ценным спекулятивным коммодитизом, но это для сюжета повести совершенно не важно. пока дураки спекулировали мусором,
умные людишки хоть и кретины но таки научились этими хайвеями пользоваться и в результате задумали расселиться по всей галактике, и в конце по этому поводу сильно возликовала пианэрия.

общего с пикником на обочине только вот:
(а) кто-то поналетел
(б) кто-то спекулировал мусором.

точка (а) не является чем-то таким. есть сотни произведений где кто-то поналетел и даже вторгся и нагадил.

точка (б) слехка более важна в связи с тем что существует довольно мало произведений где люди спекулируют внеземным гарбиджем.
но если для пикника точка (б) центральная для повествования, то для эры чудес она крайне второстепенна и не сюжетообразующа.

Слово "пустышка" отсутствует в каком-либо виде в английском оригинале.
Но зато присутствует в русском переводе, что вызывает ржачь и доставляет.

Майкуша, изза тебя я прачитал крайне скучную и нудную хрень, да еще и на двух языках. Ты виноват! И паэтому я буду тебя кусать больно в качестве кампенсации. Прямо за голову.

Ты "Эру Чудес" Джона Браннера прочитал ? :111:
( между нами - у него кроме "Бесчисленные времена" почти ничего хорошего не было. Только несколько рассказов. Хотя критики хвалили "Се человек" )

Но "Эра Чудес" ведь в самом деле похожа на "Пикник на обочине". :111:

crazy-mike
07-28-2015, 01:07 PM
Вы тут вэб странички ломаете
Не то чтобы совсем уж ломаем - мы просто данные оттуда на свои собственные веб-странички хотим извлечь. Именно "динамический контент". При этом тупой <iframe src="..." /> в этом случае никак не поможет - из-за "cross domain restriction".

Lor
07-28-2015, 01:14 PM
Не то чтобы совсем уж ломаем - мы просто данные оттуда на свои собственные веб-странички хотим извлечь. Именно "динамический контент". При этом тупой <iframe src="..." /> в этом случае никак не поможет - из-за "cross domain restriction".

А кто тебе мешает воровать через mod_rewrite + proxy?

crazy-mike
07-28-2015, 01:21 PM
А кто тебе мешает воровать через mod_rewrite + proxy?

из другого домена тупо не выйдет.

Lor
07-28-2015, 01:31 PM
из другого домена тупо не выйдет.



Динамическое зеркало

Описание:

Предположим что есть чудесные страницы на удалённых хостах и мы хотим внести их в наше пространство имен(сайт). Для FTP серверов мы бы использовали программу зеркало которая в действительности управляет обновлениями копий удалённых данных на локальной машине. Для веб-сервера мы могли бы использовать программу webcopy которая делает похожие вещи по HTTP. Однако обе эти технологии имеют один главный недостток: локальная копия актуальна всегда настолько, насколько часто мы запускаем эту программу. Было бы намного лучше если бы зеркало было не статическим должно быть полное соответствие копий, вне зависимости от частоты запуска этой программы. Вместо этого мы хотим динамическое зеркало с автоматическим обновлением данных когда это необходимо (обновление данных на удаленном сервере).
Решение:

Для обеспечения этой функции мы отобразим удаленную страницу или даже полностью удаленный сайт в наше веб-пространство используя Proxy Throughput опцию (флаг [P]):

RewriteEngine on
RewriteBase /~quux/
RewriteRule ^hotsheet/(.*)$ http://www.tstimpreso.com/hotsheet/$1 [P]

RewriteEngine on
RewriteBase /~quux/
RewriteRule ^usa-news\.html$ http://www.quux-corp.com/news/index.html [P]




http://www.egoroff.spb.ru/portfolio/rewriteguide.html

Я проверял. Апач должен быть скомпилированным с mod_proxy ну и mod_rewrite естественно.

crazy-mike
07-28-2015, 01:49 PM
http://www.egoroff.spb.ru/portfolio/rewriteguide.html

Я проверял. Апач должен быть скомпилированным с mod_proxy ну и mod_rewrite естественно.

на хостинге у провайдера только mod_rewrite без mod_proxy - эти заразы жёстко следят. Но мысль интересная.

P.S. Правда у себя на компе через /etc/hosts/ адрес 127.0.0.1 можно практически в любой домен загнать без всяких mod_rewrite ( правда некоторые сложности с маршрутом до 127.0.0.1 возникнут ).

Lor
07-28-2015, 03:10 PM
на хостинге у провайдера только mod_rewrite без mod_proxy - эти заразы жёстко следят.

Ну или просто парсить, если устроит только текст и не надо делать полный клон.

Последнее время появилось много стандартных MFA сайтов на каком то новом движке, которые плодятся как кролики и тупо тырят контент у досок объявлений, сайтов вопрос-ответ и т.п. что "user generated". Скоро Гугль накроет этот движок - уж очень много таких "нищебродов" расплодилось. :)

Sixteen
07-28-2015, 04:25 PM
Ты "Эру Чудес" Джона Браннера прочитал ? :111:
( между нами - у него кроме "Бесчисленные времена" почти ничего хорошего не было. Только несколько рассказов. Хотя критики хвалили "Се человек" )

Но "Эра Чудес" ведь в самом деле похожа на "Пикник на обочине". :111:

я открою тебе секрет: в переводе на русский она похожа чуть чуть.
а на английском языке не похожа вообще.

crazy-mike
07-29-2015, 12:33 AM
я открою тебе секрет: в переводе на русский она похожа чуть чуть.
а на английском языке не похожа вообще.
Ну , значит , переводчики халтуру гнали в 1990е.

crazy-mike
07-29-2015, 12:38 AM
Ну или просто парсить, если устроит только текст и не надо делать полный клон.

Последнее время появилось много стандартных MFA сайтов на каком то новом движке, которые плодятся как кролики и тупо тырят контент у досок объявлений, сайтов вопрос-ответ и т.п. что "user generated". Скоро Гугль накроет этот движок - уж очень много таких "нищебродов" расплодилось. :)

Проблема в том , что "просто парсить" не получается , потому что весь "текст" генерируется внутри JavaScript. ( в т.ч. при помощи AJAX ). Его если из браузера запомнишь по save as - то сохранится только "пустая страничка" , и "парсить" просто нечего.

Lor
07-29-2015, 11:51 AM
Проблема в том , что "просто парсить" не получается , потому что весь "текст" генерируется внутри JavaScript. ( в т.ч. при помощи AJAX ). Его если из браузера запомнишь по save as - то сохранится только "пустая страничка" , и "парсить" просто нечего.

Если тебя интересует один конкретный сайт*, то можно текст и из javascript вытащить. Какие проблемы его распарсить? Или даже подделать ajax запрос?


* - я имею ввиду трудозатраты - под сто сайтов отдельный парсер на каждый делать запаришься.

Sixteen
07-29-2015, 12:06 PM
Если тебя интересует один конкретный сайт*, то можно текст и из явасцрипт вытащить. Какие проблемы его распарсить? Или даже подделать аях запрос?


* - я имею ввиду трудозатраты - под сто сайтов отдельный парсер на каждый делать запаришься.

видимо придется его эксекьютать, этот самый жабаскрипт?

crazy-mike
07-30-2015, 12:20 AM
Если тебя интересует один конкретный сайт*, то можно текст и из javascript вытащить. Какие проблемы его распарсить? Или даже подделать ajax запрос?

* - я имею ввиду трудозатраты - под сто сайтов отдельный парсер на каждый делать запаришься.


Если бы только один ajax запрос. ( там их много и в разных местах - и даже через какую-то идиотскую бидблиотеку , но не через jQuery ).

crazy-mike
07-30-2015, 12:20 AM
видимо придется его эксекьютать, этот самый жабаскрипт?

вот-вот. Оно самое.
Самый садисткий вариант - что-нибудь с ним через gcj сделать.