Pinecone-Spendenaktion der Serie B
Die Hintergrundgeschichte von zwei der brillantesten Menschen, die ich kenne, die dazu beigetragen haben, Pinecone zu einem Teil des modernen KI-Stacks zu machen (mit einigen Avengers-Referenzen)
Beiträge zu Finanzierungsankündigungen sind oft voll von übertriebenen Behauptungen von Risikokapitalgebern über Vision, Weitsicht und Kategoriebeherrschung. Das werde ich hier nicht tun (oder doch?). Stattdessen werde ich über unsere Verbindung zu Pinecone sprechen – Geschichten, die über ein Jahrzehnt mit dem Gründungsteam zurückreichen und zu den heutigen Nachrichten führen: Pinecone hat eine Serie-B-Finanzierung im Wert von 100 Millionen US-Dollar eingeworben, angeführt von A16Z; mit einem explosiven Wachstum, das ihre neue Bewertung von 750 Millionen US-Dollar rechtfertigt.
Gleichzeitig werde ich einige Avengers-Analogien anknüpfen. (Ich würde mich auf Star Wars beziehen, aber ich konnte nicht herausfinden, wer Darth Vader sein würde.)
Sie sagen, Partnerschaft im Risikokapital sei alles. Zum Glück besteht meine Partnerschaft mit Gründer Edo Liberty und CTO Ram Sriharsha bereits mehr als zehn Jahre.
Edo == Tony Stark
Ich traf Edo zum ersten Mal, als er in den Yahoo-Forschungslabors arbeitete und ich Ingenieurteams leitete, von denen einige Hadoop nutzten, um einzelne Yahoo-Benutzer durch das Zählen von Cookies zu zählen. Yahoo weist jeder Browserinstanz auf einem Computer eindeutige Cookies zu. Die Anzahl der Cookies an einem bestimmten Tag ist die Gesamtheit der Cookies über mehrere Browser hinweg. Der Inkognito-Modus, Roboter und das Löschen von Cookies können hohe Milliarden von eindeutigen Cookies erreichen. „select count(distinct(cookies))“ macht in dieser Größenordnung keinen Spaß, insbesondere wenn die zugrunde liegende JVM keine Heap-Zuordnung mehr hat.
Wir wollten etwas Besseres und griffen natürlich zu hyperloglog . Unzufrieden erweiterten wir stattdessen stochastische Streaming-Algorithmen auf Data Sketches, das mittlerweile ein beliebtes OSS-Projekt ist . Nachdem er bei Yahoo Big-Data-Probleme wissenschaftlich gelöst hatte, leitete Edo schließlich die AI Research Labs bei Amazon. Für mich war er immer ein dynamischer, vielseitig begabter und brillanter Mensch mit einem Blick für das, was als Nächstes kommt, außer einem pragmatischen Ansatz. Er ist auch jemand, der das Leben in vollen Zügen genießt (ich freue mich, diese Runde nutzen zu können, um in Luftpolsterfolie zu investieren, um ihn vor seinen Extremsport-Hobbys zu schützen). Er ähnelt Tony Stark, nur dass Edo seine Familie und andere Menschen liebt.
Ram == Vision
Ram und ich haben eine andere parallele und unterschiedliche Geschichte. Ingenieure werden oft als „10x“-Entwickler beschrieben. Ram ist kein 10x-Entwickler; Er ist ein 1000-facher Entwickler. Sein Intellekt erinnert mich an Vision aus den Avengers, aber mit einem riesigen, fürsorglichen Herzen im Inneren wie Vision, aber Ram ist ein Mensch!
Als wir gemeinsam im Datenteam arbeiteten, waren wir mit der Leistung von Hadoop unzufrieden und wollten mehr. Wir sind sogar so weit gegangen, das Ganze in C++ mit einem benutzerdefinierten Dateiformat neu zu schreiben, das genau wie Parquet aussieht (einschließlich Metadaten in der Fußzeile). Nachdem wir in der Literatur nach einem besseren Weg geschnüffelt hatten, entdeckten wir am UC Berkeley AMPLab ein Projekt namens Spark. Wir waren vom Graphenverarbeitungsmodell fasziniert und stiegen sofort in den nächsten BART-Zug nach Berkeley, um uns mit Ion Stoica, Matei Zaharia und Reynold Xin zu treffen. Kurz darauf sponserten wir das Labor und stellten einige ihrer Doktoranden als Praktikanten bei Yahoo ein. Daraus entstand Databricks, gegründet vom AMPLabs-Team. Ram wurde einer der ersten Mitarbeiter bei Databricks und einer ihrer wichtigsten Ingenieure.
Spulen wir vor ins Jahr 2021 – ich war CTO bei Splunk und Ram leitete unsere Teams für maschinelles Lernen und Sicherheitsforschung. Ich ging, um bei Menlo Ventures zu arbeiten – Ram blieb, aber wir unterhielten uns oft. Ich wollte mit Ram ein Unternehmen gründen oder gründen, und wir landeten schnell bei Vektoreinbettungen – entweder bei der Anwendung gegen Cybersicherheitsprobleme oder als Datenbank. Ram hatte immer noch Kontakt zu Edo, da sie in der Vergangenheit eng zusammengearbeitet hatten. Als er erfuhr, dass Edo ein Unternehmen für Vektordatenbanken gegründet hatte, kam Ram sofort zu Pinecone.
Änderungen der KI/Datenarchitektur: Das Spark/Databricks-Gefühl wirkt anders
Zu diesem Zeitpunkt wusste ich, dass wir einen weiteren Wendepunkt bei Daten und KI hatten. Ich kannte dieses Gefühl – ich hatte es schon einmal – es fühlte sich genau wie an dem Tag an, als wir mit BART nach Berkeley fuhren und das Spark-Team trafen, das Databricks gründete.
Vektor-Einbettungsdatenbanken waren schon immer die Zukunft der Daten. Vektoren sind das neue Öl, wie die Leute einmal sagten: „Daten waren das neue Öl.“ Es handelt sich um eine umfassendere und originalgetreue Möglichkeit zur Darstellung beliebiger Daten – ob strukturiert oder unstrukturiert. Die semantische Suche ist der lexikalischen Suche deutlich überlegen und wird die Suchkategorie für Jahrzehnte verändern. Die nächsten großen Unternehmen in den Bereichen Sicherheit, Beobachtbarkeit, Vertrieb, Marketing und mehr – alle diese Kategorien werden auf Einbettungen aufbauen.
Die Idee, dass ein Unternehmen eine Datenbank für Vektoren in der Cloud erstellen könnte, wie es Snowflake für OLAP getan hat, war eine überwältigende Gelegenheit, die sowohl technisch unglaublich anspruchsvoll als auch lukrativ war. Wenn jemand eine Snowflake-ähnliche Cloud-Datenbank mit Trennung von Speicher und Rechenleistung, vertikaler/horizontaler Skalierung, CRUD-Semantik und einer benutzerdefinierten Vektorspeicherschicht erstellen könnte , dann das Team von Edo, Ram und Pinecone.
Die Vereinbarung abschließen
Als ich erfuhr, dass Ram zu Pinecone kam, machte ich es mir zur Aufgabe, voranzukommen. Ich habe mich schnell mit Edo verbunden. Nach einem Gedankenaustausch über die Kunst des Möglichen mit Vektordatenbanken und einigen Abendessen (unter anderem mit Edos Frau) kamen wir schließlich zu einer Einigung. Menlo führte ihre Serie A im Dezember 2021 an.
17 Millionen US-Dollar bei 170 Millionen US-Dollar im Dezember 2021 für eine Vektordatenbank, als niemand verstand, dass Vektoreinbettungen mutig klangen.
Es war für uns in Ordnung, dass Menlo zu diesem Zeitpunkt verrückt aussah. Es war klar: Pinecone würde ein Ankerstück in der Architektur der KI sein. Obwohl wir den zeitlichen Hype um generative KI nicht vorhersagen konnten (Krypto war damals vorherrschend), wussten wir, dass Pinecone aufgrund der semantischen Suche, Anwendungen im maschinellen Lernen und schließlich Sprachmodellen, wie wir sie entwickelt haben, fantastisch sein würde sind alle in den heutigen Tag verliebt.
Pinecone würde allein aufgrund der semantischen Suche bereits ein Riesenerfolg werden. Mit dem Aufkommen von LLMs erkannten die Entwickler jedoch schnell, dass Halluzinationen und mangelnde Modellaktualität aufgrund des unhaltbaren Verhältnisses von Größe und Kosten ein Problem darstellten. Pinecone füllte diese Lücke sofort, bis zu dem Punkt, dass die Paarung von OpenAI und Pinecone „zu einer Sache“ wurde, die heute als OP-Stack bekannt ist.
Diese Kombination löste ein unglaubliches und explosives Wachstum bei Pinecone aus. Es ist klar, dass Vektordatenbanken eines der wichtigsten Ankerelemente des modernen KI-Datenstapels sein werden und dass Pinecone mit einem bewährten Team der aufstrebende Branchenführer ist. Ich bin unglaublich stolz und aufgeregt, mit Edo und Ram auf der Reise zu sein. Wir freuen uns auch, Peter Levine und A16Z im Team begrüßen zu dürfen, während wir mit Pinecone weiterhin die Zukunft der KI gestalten.
PS: Um diesen Meilenstein zu feiern, habe ich die Julia Pinecone API (Pinecone.jl) aufgeräumt und auf 1.0 hochgestuft. Vielen Dank an das großartige Pinecone-Team, das mich auf Trab gehalten hat, indem es jeden HTTP 20x-Statuscode verwendet hat , von dem ich nicht wusste, dass er existiert! Es ist dumm von mir, HTTP 200 fest zu codieren, obwohl HTTP 202 besser wäre!
Wenn Sie ein Pinecone-Benutzer sind, sehen Sie sich außerdem die von mir geschriebene Pinecone-Befehlszeilenschnittstelle an, die Ihnen bei der Verwaltung von Indizes und CRUD für Daten hilft.

![Was ist überhaupt eine verknüpfte Liste? [Teil 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































