Podsmart: resuma podcasts com IA

Apr 23 2023

Nos últimos três meses, tenho trabalhado em um aplicativo de IA de podcast e hoje estou muito animado para revelá-lo ao mundo! Podsmart resume podcasts para ajudar intelectuais ocupados a aprender com mais eficiência. Transcrevemos podcasts e geramos informações importantes em um resumo interativo, economizando horas de escuta.

Inscreva-se no Podsmart hoje e escolha 5 episódios de podcast para transcrever e resumir gratuitamente!

Este é um projeto pessoalmente significativo por vários motivos - sou um ouvinte ávido de podcasts e enfrento muitos pontos problemáticos que meu aplicativo visa abordar, este é o primeiro produto de software lançado publicamente que fiz e desenvolvi o aplicativo de um beliche do exército usando um ponto de acesso móvel nos últimos três meses. Entrarei em minha jornada de desenvolvimento em uma postagem posterior, mas, por enquanto, esta postagem é sobre a ideia por trás do Podsmart .

O poder do áudio: a fala domina a disseminação de ideias hoje

Em primeiro lugar, o áudio é o meio dominante onde as ideias são produzidas . Líderes de pensamento e especialistas do setor compartilham percepções e experiências valiosas na forma de entrevistas, bate-papos, apresentações e discursos. Pense em algumas das pessoas mais influentes do mundo hoje. Como você veio a saber de suas idéias e crenças? A menos que você esteja pensando em um autor famoso, é extremamente provável que essas pessoas tenham comunicado suas ideias por meio da fala, e você ouviu o discurso deles ou leu um artigo baseado no que eles disseram, em vez de eles comunicarem suas ideias diretamente a você em um texto escrito. . Portanto, envolver-se com ideias valiosas envolve necessariamente o meio de áudio.

Uma razão para isso é a facilidade de produção de áudio - as pessoas se comunicam por meio da fala com muito mais facilidade e rapidez do que por escrito. A pessoa média fala pelo menos 7.000 palavras por dia , enquanto um escritor profissional médio escreve 1.000 palavras por dia . Não apenas o volume, mas também a taxa de transferência de informações é maior por meio da fala. As pessoas falam a uma taxa de cerca de 150 palavras por minuto , em comparação com apenas 40 palavras por minuto para escrever.

Como resultado, mídia de áudio como podcasts tem crescido em popularidade , com a proporção da população dos EUA que ouviu um podcast no mês passado triplicando nos últimos 10 anos para 38%, com 18% ouvindo podcasts diariamente e os jovens (de 12 a 34 anos) são o principal grupo consumidor de podcasts.

As desvantagens do consumo de áudio

No entanto, as informações de áudio são mais difíceis de consumir.

A taxa de consumo de informações é mais lenta do que com texto. Os seres humanos lêem a uma média de 300 ppm , em comparação com 210 ppmpara ouvir. Além disso, os podcasts geralmente têm a forma de conversas, o que significa que há mais informações irrelevantes nessas 210 palavras, como conversa fiada, palavras de preenchimento e pausas, o que reduz ainda mais a taxa de recebimento de informações relevantes. Para aqueles com tempo limitado, a densidade de informação inferior do meio de áudio pode ser uma barreira para consumir informações e interagir com ideias valiosas. Pessoalmente, adoro ouvir podcasts, especialmente sobre economia e tecnologia. Toda semana, ~ 20 novos episódios são lançados dos principais podcasts que sigo e, com cada episódio com uma hora de duração em média, dificilmente tenho tempo para ouvir todos os podcasts com os quais quero me envolver. Assim, o grande volume de produção de áudio significa que muitas ideias valiosas estão contidas no áudio , masessas idéias são muito menos densamente concentradas do que no texto . Isso mostra a necessidade crucial de soluções que resumam e destilem ideias-chave de áudio.

Além disso, os insights obtidos com o envolvimento com o meio de áudio são difíceis de recuperar e compartilhar . É muito difícil procurar informações específicas em mídias de áudio como podcasts. Por exemplo, quando estou conversando com amigos, às vezes me lembro de uma visão interessante de um episódio de podcast que ouvi anteriormente. Digo aos meus amigos que enviarei um link do podcast que menciona esse fato, mas percebo que esqueci qual dos vários podcasts que ouço continha esse fato. Além disso, mesmo que eu eventualmente me lembre do podcast específico, embora o texto possa ser facilmente pesquisado usando uma função Ctrl-F, procurar uma frase em uma gravação de áudio geralmente significa ouvir dolorosamente toda a gravação por segundos de informações relevantes. Essas experiências frustrantes inibem as pessoas de interagir com ideias na esfera do áudio.

Os serviços de transcrição de hoje são inadequados

A solução óbvia para desbloquear as informações em áudio é transcrevê- las para texto. Por décadas, a transcrição humana tem sido o padrão-ouro, mas isso é dolorosamente lento – transcritores profissionais transcrevem 1 hora de áudio em 2 a 3 horas – e caro – com o preço padrão para 1 hora de transcrição sendo $ 90. Inovações tecnológicas recentes anunciaram uma nova era de serviços de transcrição de IA. No entanto, a adoção em massa da transcrição AI foi retida, o áudio é uma modalidade extremamente difícil para as máquinas processarem, com muitos fatores, como qualidade, ruídos de fundo, diversidade de fontes de áudio, formatos e tipos de compactação, impedindo o surgimento de soluções de transcrição eficazes. tão prontamente quanto os modelos de reconhecimento de imagem ou NLP.

Hoje, os serviços populares de transcrição de IA custam US$ 0,85 ( Otter.ai ), US$ 0,87 ( Deepgram ), US$ 0,90 ( AssemblyAI ), US$ 1,25 (Amazon) e US$ 1,44 ( Google Speech to Text ) por hora de áudio. Apesar disso, as APIs existentes de conversão de voz em texto são complicadas de implementar , exigindo conhecimento aprofundado em assuntos como formatos de áudio, taxa de amostragem, etc.

Além disso, esses serviços de transcrição de IA não resolvem o problema da baixa densidade de informações do áudio, pois a maioria não oferece serviços de resumo , limitando a eficácia do usuário final que consome as transcrições. Mesmo que a transcrição esteja disponível de forma barata, o tempo adicional necessário para filtrar informações importantes é caro em comparação com o texto. Entre o conjunto limitado de serviços de IA que oferecem resumo estão o AssemblyAI (que também inclui análise de sentimento e detecção de entidade), por US$ 3/hora (no total) e o plano premium da Sonix de US$ 5/hora com uma assinatura de US$ 22/mês.

Precisamos de uma solução de ponta a ponta econômica que transcreva podcasts e resuma o conteúdo em insights digeríveis.

Entre no Podsmart. O aplicativo inteligente que desbloqueia perfeitamente o conhecimento de podcasts.

O Podsmart sintetiza informações de podcasts em um formato visual acessível e intuitivo, permitindo que você interaja com seus podcasts e aja como nunca antes.

Pesquise qualquer podcast disponível no Spotify e o Podsmart gera uma transcrição de ponta dos episódios de podcast.

Além da transcrição, os recursos de inteligência de áudio do Podsmart permitem que você extraia insights de podcasts com eficácia. O Podsmart usa técnicas de agrupamento de IA para extrair os principais tópicos do podcast e fornece títulos e resumos informativos gerados por IA de cada tópico. O Podsmart fornece um resumo do episódio, com destaques codificados por cores para mostrar a qual tópico cada parte do resumo corresponde.

A Podsmart entende que os listers desejam interagir com podcasts em vários níveis de granularidade. Freqüentemente, queremos mais detalhes sobre um determinado tópico e apenas um breve resumo sobre outro tópico, e pessoas diferentes se concentram em tópicos diferentes. Portanto, fornecer apenas um resumo padrão ou, por outro lado, apenas mostrar a transcrição do texto inteiro é inadequado. Com o Podsmart, clicar em cada tópico oferece maior granularidade - os registros de data e hora dos segmentos de áudio que compõem cada tópico - para que você mesmo possa ouvir o áudio, juntamente com os resumos dos segmentos, bem como o texto da transcrição bruta, palavra por palavra.

O Podsmart permite que você interaja com seu conhecimento de áudio também por meio do chatbot de perguntas e respostas. Usando a pesquisa semântica nas transcrições do podcast, o chatbot fornece respostas precisas e personalizadas, juntamente com os segmentos de transcrição mais relevantes para você explorar mais detalhadamente. Além disso, o Podsmart permite integrar informações em vários episódios de podcast – o chatbot pode sintetizar as informações mais relevantes em muitos podcasts diferentes para chegar a uma resposta. Isso é ideal para comparar e contrastar opiniões em diferentes podcasts.

O Podsmart oferece suporte a podcasts em idiomas diferentes do inglês, tornando-o uma ferramenta perfeita para quem está tentando aprender um novo idioma.

Um recurso bônus do Podsmart é o suporte multilíngue . Como alguém tentando aprender um novo idioma (espanhol), ouço podcasts de idiomas para aprender novo vocabulário e estruturas de frases, pois o aprendizado eficaz de idiomas requer a correlação da palavra falada e escrita. No entanto, sempre fico frustrado com as transcrições presas atrás de um acesso pago ou inexistentes. Para alunos de segundo idioma como eu, o Podsmart oferece cobertura. O Podsmart transcreve e traduz podcasts, exibindo texto em ambos os idiomas lado a lado para unir efetivamente o aprendizado de áudio e texto.

O acesso ilimitado ao Podsmart vem com uma assinatura mensal de $ 4,99 - oferecendo a você um produto valioso a um preço superior.

As ideias são valiosas e poderosas e, no mundo acelerado de hoje, é crucial processar, internalizar e integrar novas ideias com eficiência. Use Podsmart - o aplicativo inteligente que desbloqueia podcasts de forma de conhecimento.