[ /b/ /u/ /rf/ /dt/ /vg/ /r/ /cr/ /lor/ /mu/ /oe/ /s/ /w/ /hr/ ] [ /a/ /ma/ /sw/ /hau/ /azu/ ] [ /tv/ /cp/ /gf/ /bo/ /di/ /vn/ /ve/ /wh/ /fur/ /to/ /bg/ /wn/ /slow/ /mad/ ] [ /d/ /news/ ] [ Главная | Настройки | Закладки | Плеер ]

Ответ в тред 46835. [Назад]
 [ Скрыть форму ]
Имя
Не поднимать тред 
Тема
Сообщение
Капча Капча
Пароль
Файл
Вернуться к
  • Публикация сообщения означает согласие с условиями предоставления сервиса
  • В сообщениях можно использовать разметку wakabamark
  • На данной доске отображаются исходные имена файлов!
  • Разрешенные типы файлов: pdf, code, flash, video, text, archive, image, vector, music
  • Тред перестает подниматься после 500 сообщений.
  • Треды с числом ответов более 100 не могут быть удалены.
  • Старые треды перемещаются в архив после 40 страницы.

No.46835 Ответ
Файл: Cw02i0IUsAAdYJK.jpg
Jpg, 107.89 KB, 915×803 - Нажмите на картинку для увеличения
edit Find source with google Find source with iqdb
Cw02i0IUsAAdYJK.jpg
Хочу сделать такую тему:

1. Скачать весь твиттер или большую его часть.
2. Загнать всё это дело в Elasticsearch.
3. Прогнать это всё дело через классификаторы, анализаторы кейвордов, сентимента и т. д.
4. Предоставлять API для выборок любой сложности.

Зачем?

Например, я хочу выбрать твиты, в которых иностранцы, будучи в путешествии по России положительно отзываются о достопримечательностях СПБ и узнать, о каких конкретно достопримечательностях они пишут, а так же, какие категории достопримечательностей их интересуют. Вот для этого.

Кому?

Маркетологам, аналитикам, исследователям.

----

Так вот, как думаешь, имеет шансы взлететь? Есть ли аналогичные решения?
>> No.46837 Ответ
>>46835
Обычный стриминг апи очень лимитирован. Есть вариант присосаться к сырому потоку, но он стоит очень дохуя, и чтобы его обработать в рилтайме надо тоже очень дохуя дури в железе. В общем, это для топовых корпораций вариант, а не для ололо-стартапа.
О скачивании всего твиттора речи вообще не идет, там какие-то сотни миллионов в день и никто тебе не даст в них копаться.
>> No.46841 Ответ
>>46837
Ну, в общем, посидели с пацанами и пришли к тому же мнению. А ещё это вроде как нарушает TOS, так что ну его в пень, даже если бы были (ну, чисто гипотетически) ресурсы.
>> No.49107 Ответ
>>46837
Можно just for fun использовать spark, он работает распределенно. Есть spark-streaming.
>> No.49131 Ответ
Оооо^H^H^H^H


Пароль:

[ /b/ /u/ /rf/ /dt/ /vg/ /r/ /cr/ /lor/ /mu/ /oe/ /s/ /w/ /hr/ ] [ /a/ /ma/ /sw/ /hau/ /azu/ ] [ /tv/ /cp/ /gf/ /bo/ /di/ /vn/ /ve/ /wh/ /fur/ /to/ /bg/ /wn/ /slow/ /mad/ ] [ /d/ /news/ ] [ Главная | Настройки | Закладки | Плеер ]