Поисковик для бизнеса: как стартап Diffbot собрал в интернете триллион фактов и обошел Google – Forbes

15.05.2019

Фото: Diffbot.com

Технология Diffbot обошла Google по числу собранных данных. Но, в отличие от интернет-гиганта, работать он предпочитает с бизнесом, а не с обычными пользователями. К примеру, компания сотрудничает с Salesforce, eBay, Snapchat и Intel. Историю о создании компании написало издание Forbes. Приводим практически полную версию материала.

Компания Сisco хотела, чтобы пользователи ее сервиса видеоконференций могли получить информацию обо всех участниках видеозвонка, например, о том, где они раньше работали и упоминались ли они ранее в новостях. Для этого она решила воспользоваться услугами стартапа Diffbot из калифорнийского города Маунтин-Вью.

Diffbot занимается структурированием информации из интернета в соответствии с индивидуальными запросами клиентов. Созданная разработчиками Diffbot поисковая система "прочесывает" миллионы страниц и выдает результаты по заданным параметрам. Для Сisco система, к примеру, подбирает статьи, в которых упоминаются участники видеоконференции. Для производителя кроссовок Diffbot делает обзоры отзывов покупателей и обсуждений на форумах. А для разработчика программного обеспечения для бизнеса подыскивает потенциальных клиентов. Обычно для того, чтобы собрать такого рода данные в полном объеме, требуется много времени. Однако создатели стартапа утверждают, что Diffbot изучает практически все доступные веб-страницы и может предоставить результаты поиска менее чем за секунду.

"Люди не могут узнать все обо всем. Поэтому нам нужно создать систему, которая будет способна это сделать", – говорит основатель Diffbot Майк Тан.

Как Diffbot играет на поле Google

Компании из всех отраслей экономики нанимают все больше специалистов по обработке данных и используют технологии искусственного интеллекта для моделирования спроса на свои продукты, анализа угроз со стороны конкурентов и поиска новых клиентов. Однако при проведении любого анализа даже искусственному интеллекту нужно опираться на конкретные данные. Здесь вступает в игру Diffbot. Основатели стартапа уверяют, что их поисковая система предоставляет более полные данные, а также делает это быстрее, чем разработки конкурентов.

Создатель Diffbot Майк Тен, которому сейчас 36 лет, говорит, что после почти десяти лет фальстартов и технических прорывов его команде удалось создать поисковый индекс, который уже проанализировал 90% открытых интернет-ресурсов. По неполным подсчетам, база данных Diffbot состоит более чем из триллиона фактов.

Это огромный объем, даже если сравнивать с базой данных Google. У интернет-гиганта есть своя технология структурирования информации, которая получила название Knowledge Graph. Именно ее можно назвать источником всех ответов, которые появляются в топе поиска, когда пользователи задают определенные вопросы. Последний раз Google обнародовала информацию о Knowledge Graph в конце 2016 года, и тогда в базе данных системы было лишь 70 млрд фактов.

Фото: Diffbot.com

Как и Knowledge Graph, поисковая система Diffbot постоянно просматривает миллиарды веб-страниц. Однако стартап использует поисковый индекс не для того, чтобы дать людям наиболее релевантные ссылки на информацию: Diffbot предоставляет компаниям данные, которые они могут затем интегрировать в свои собственные аналитические инструменты.

Diffbot привлек финансирование на сумму $12 млн и смог обзавестись несколькими именитыми клиентами вроде Salesforce, eBay, Snapchat и Intel. По словам представителей Diffbot, программу использует и Amazon – для поиска потенциальных клиентов, заинтересованных в его облачных сервисах. В прошлом году доходы компании составили почти $5 млн. По мнению Тана, продажи вскоре могут удвоиться, поскольку все больше компаний находится в поиске крупномасштабных баз данных.

"Diffbot – это своего рода секретный ингредиент для многих компаний", – отметил основатель стартапа.

От книги к книге

Майк Тан с юного возраста увлекался обработкой информации. Он родился на Тайване, но затем вместе с семьей переехал в США, чтобы его отец мог получить высшее образование. Его семья поселилась в городе Мальборо, штат Массачусетс, и мать отвела Майка в местную библиотеку. Там он читал все книги подряд, методично передвигаясь от полки к полке. Мальчик не выбирал чтиво, исходя из своих интересов, он хотел прочитать каждую книгу в библиотеке.

"Я продолжал читать все книги подряд до тех пор, пока не попал в библиотеку побольше", – с улыбкой отметил он.

Будучи подростком, он с помощью компилятора Microsoft QuickBASIC перепрограммировал видеоигры для получения дополнительных "жизней". Во время учебы в старших классах, уже в Пенсильвании и Джорджии, он написал компьютерную программу, предсказывающую движение акций на фондовом рынке, и иногда спекулировал на бирже.

Во время стажировки в Microsoft ему удалось произвести хорошее впечатление и показать свои технические навыки, поэтому сразу после окончания школы он получил приглашение в команду, занимавшуюся созданием операционной системы Windows Vista. Проработав в Microsoft целый год, Майк Тан решил получить высшее образование и поступил в Калифорнийский университет в Беркли, где изучал информационные технологии.

Затем он перебрался в Стэнфорд, чтобы получить степень магистра в области искусственного интеллекта и поступить в аспирантуру. Все это время он думал о том, как структурировать накопленные человечеством знания. Тан пытался разработать способ, с помощью которого можно было бы систематизировать разбросанные по интернету данные так, чтобы компьютерные программы были в состоянии читать и анализировать их.

Он представил, что создаст поисковую систему, которая выдавала бы только конкретные ответы. По его замыслу, вместо того, чтобы выдавать ссылки, пройдя по которым пользователи сами должны искать информацию, такая поисковая система могла бы автоматически выдавать либо точный ответ, либо большой набор данных для анализа. И так, работая патентным поверенным и участвуя в проектах создания поисковиков для eBay и Yahoo, Тан параллельно трудился над созданием собственной компании.

После нескольких неудачных попыток ему наконец удалось создать программу, способную находить и сортировать новостные статьи. Одним из первых клиентов Diffbot стала американская компания AOL. В 2012 году, подписав контракт на несколько сотен тысяч долларов, Тан принял решение покинуть все другие проекты и отчислиться из аспирантуры, чтобы посвятить все свое время развитию бизнеса.

Майк Тан (в середине кадра) с командой Diffbot Фото:architecht.io

Инвестор Пейджа и Брина

В том же году ему удалось договориться о встрече с миллиардером Энди Бехтольшаймом, сооснователем компании Sun Microsystems и одним из первых инвесторов Google. В ходе деловой встречи он убедил Бехтольшайма выписать ему чек на $100 000 (такую же сумму миллиардер инвестировал в 1998 году в проект создателей поисковой системы Google Ларри Пейджа и Сергея Брина). При этом спустя несколько часов после встречи Энди Бехтольшайм написал Майку Тану электронное письмо, в котором рассказал, что хочет удвоить объем инвестиций.

После того как стало известно, что Бехтольшайм поддержал проект, Майк Тан получил дополнительное финансирование на сумму в $2 млн от бизнес-ангелов. В ходе раунда А стартап привлек $10 млн от Felicis Ventures и китайского интернет-гиганта Tencent. По данным Diffbot, стоимость компании оценивается более чем в $100 млн.

"Это невероятно сложная задача. Майк и его команда специалистов по технологиям искусственного интеллекта проделали отличную работу", – говорит Бехтольшайм.

Штаб-квартира Diffbot сейчас находится в загроможденном офисе, расположенном неподалеку от станции пригородных поездов в Маунтин-Вью. Вскоре Diffbot переедет в более просторный офис в калифорнийском городе Менло-Парк. В компании работает 30 человек, из них более 20 – это исследователи и инженеры в области технологий искусственного интеллекта. В течение следующих 18 месяцев Тан планирует увеличить штат компании вдвое.

Конкуренция

Клиенты Diffbot оплачивают услуги компании ежемесячно. Сумма зависит от того, как часто компания пользуется сервисом. Небольшие компании платят от $299 в месяц. Для крупных клиентов цены устанавливаются в индивидуальном порядке.

Вместе с бизнесом растет и конкуренция. Множество других стартапов занимаются сбором и обработкой огромных объемов данных. Компании Import.io и WebHose разработали свои методы сбора данных на просторах интернета. Кроме того, крупные компании уже выкупили несколько перспективных технологий: разработчик программного обеспечения Palantir Technologies приобрел Kimono Labs, а технологический гигант IBM – AlchemyAPI.

Преимущество Diffbot – большая база данных, говорит аналитик консалтинговой компании Gartner Светлана Сикулар, которая занимается вопросами управления данными и технологиями искусственного интеллекта. "По моему мнению, Diffbot будет играть все более важную роль. Разработчики компании поняли, как систематизировать все данные в интернете", – отмечает она.

Истчник: Forbes

Читайте новини і аналітику про ритейл та e-commerce в Україні на нашій сторінці в Facebook, на нашому каналі в Telegram, а також підписуйтеся на щотижневу email розсилку.

Предоставлено SendPulse

читайте також

Відгуки в Google зросли у 130 разів: кейс CSD LAB та Getpin

09.06.2026

Колишній глава Google інвестував у київські бізнес-центри та ТРЦ Dragon Capital

08.06.2026

Google запускає Demand Gen для даних ритейлерів: як бренди можуть подвоїти продажі через YouTube та Gmail

04.06.2026

Українці можуть пройти безкоштовне ШІ-навчання від Google: як це зробити

22.04.2026