Obtenha insights poderosos dos sites das empresas - Intel

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home Hardware-pt Obtenha insights poderosos dos sites das empresas - Intel

Obtenha insights poderosos dos sites das empresas - Intel

Título: Insights acionáveis a partir do conteúdo dos sites: melhorando o perfil das empresas

Introdução: Olá a todos, sou Itai e hoje vou falar sobre insights acionáveis a partir do conteúdo dos sites. Este é um sistema aplicável que criamos aqui na Intel, uma colaboração entre as equipes de análise de vendas e marketing e a equipe de pesquisa e desenvolvimento. Antes de entrar em detalhes sobre o sistema, gostaria de compartilhar um pouco sobre nosso grupo - o Grupo ITAI da Intel. Nosso objetivo é integrar a IA ao trabalho crítico da Intel. Existimos há 11 anos e temos mais de 200 profissionais de IA, incluindo cientistas de dados, desenvolvedores e analistas. Já produzimos mais de 500 soluções nas áreas de vendas, design, fabricação e muito mais.

Table of Contents:

1. Motivação do sistema
2. Descrição do sistema
3. Desafio 1: Extração significativa de informações da página da web
4. Desafio 2: Obtenção de mais rótulos
5. Desafio 3: Distribuição externa
6. Conclusão

1. Motivação do sistema 1.1. Perfis de empresas precisos para os representantes de vendas 1.2. Iniciativa interna de um marketplace para parceiros 1.3. Enriquecendo o banco de dados interno com dados de qualidade

2. Descrição do sistema 2.1. Lista de empresas-alvo 2.2. Extração automática de dados dos sites 2.3. Processamento de processamento de linguagem natural (PLN) 2.4. Rotulagem de empresas 2.5. Predição do perfil da empresa

3. Desafio 1: Extração significativa de informações da página da web 3.1. Segmentação e compreensão das páginas da web 3.2. Uso de crowdsourcing 3.3. Meta recursos e classificação de segmentos

4. Desafio 2: Obtenção de mais rótulos 4.1. Utilização do Wikipedia para rótulos adicionais 4.2. Problemas de padronização e transferência de rótulos

5. Desafio 3: Distribuição externa 5.1. Lidar com rótulos irrelevantes 5.2. Utilização do Wikipedia para ampliar o conjunto de treinamento

6. Conclusão 6.1. Resultados satisfatórios 6.2. Melhoria contínua e aceitação dos rótulos

Aposto que você está curioso para saber mais sobre cada um desses desafios e como os enfrentamos. Vamos mergulhar mais fundo juntos!

Artigo:

🔍 1. Motivação do sistema A primeira motivação para criar este sistema foi atender às necessidades dos representantes de vendas da Intel. Esses representantes, conhecidos como "caçadores", passavam horas tentando entender o que cada empresa fazia antes de identificar os potenciais clientes relevantes para a Intel. Com um grande número de empresas para analisar manualmente, o processo era demorado e ineficiente. Além disso, a Intel tinha uma iniciativa interna chamada marketplace, onde parceiros em potencial precisavam ser encontrados. Dessa forma, a Intel percebeu que o que é bom para seus parceiros também é bom para eles. Além disso, a Intel tinha um banco de dados interno com informações valiosas, mas precisava enriquecê-lo com dados de qualidade.

🔍 2. Descrição do sistema O sistema consiste em uma lista de empresas-alvo, das quais são extraídos automaticamente dados dos sites para criar perfis das empresas. O principal conjunto de dados usado é o conteúdo disponível nos sites, incluindo HTML, imagens e metadados. Além disso, fontes externas, como a Wikipedia, também são utilizadas para obter informações adicionais sobre as empresas. O processamento de linguagem natural desempenha um papel fundamental na extração e modelagem desses dados.

🔍 3. Desafio 1: Extração significativa de informações da página da web Uma das principais dificuldades enfrentadas pela equipe foi extrair informações significativas das páginas da web das empresas. As páginas da web são projetadas para serem lidas por humanos, não por máquinas, o que torna o processo de extração complicado. Para superar esse desafio, foram utilizados métodos sofisticados, como o uso de árvores DOM e algoritmos de segmentação visual para identificar áreas mais informativas nas páginas. Além disso, foi utilizado crowdsourcing para classificar as segmentações identificadas pelos algoritmos. Com base nesses rótulos, foi possível treinar um classificador para identificar e rotular automaticamente outras segmentações.

🔍 4. Desafio 2: Obtenção de mais rótulos Obter rótulos adicionais para classificar as empresas foi outro desafio enfrentado pela equipe. A solução encontrada foi usar o Wikipedia como fonte de rótulos. As páginas da Wikipedia foram analisadas para extrair informações relevantes, como indústrias e produtos. No entanto, isso apresentou problemas de padronização e diferenças na taxonomia. Para resolver isso, foram usadas técnicas de aprendizado de transferência para adaptar os rótulos da Wikipedia à taxonomia interna da Intel. Além disso, técnicas de aprendizado fraco, como o uso de regras de rotulagem, foram empregadas para obter rótulos adicionais de forma mais rápida e eficiente.

🔍 5. Desafio 3: Distribuição externa O último desafio enfrentado pela equipe foi lidar com rótulos irrelevantes que poderiam interferir nos resultados do modelo. Para resolver esse problema, foi utilizada novamente a Wikipedia, procurando empresas com rótulos irrelevantes e adicionando-as ao conjunto de treinamento. Além disso, um rótulo geral foi criado para atrair todas as outras categorias irrelevantes, melhorando significativamente os resultados.

🔍 Conclusão Os resultados obtidos com o sistema foram satisfatórios, e cerca de 50% a 70% das empresas entregues aos representantes de vendas foram aceitas como relevantes. A equipe enfrentou e venceu três desafios principais: extração significativa de informações da página da web, obtenção de mais rótulos e distribuição externa de rótulos irrelevantes. Ao superar esses desafios, o sistema aprimorou o perfil das empresas e proporcionou insights acionáveis para a Intel.

① Prós

Automação do processo de identificação de clientes potenciais
Enriquecimento do banco de dados interno da Intel
Melhoria contínua dos resultados

② Contras

Dependência da disponibilidade de informações nos sites das empresas
Necessidade de adaptar rótulos da Wikipedia à taxonomia interna da Intel
Custo e complexidade da implementação de técnicas de aprendizado fraco

Como qualquer sistema, há sempre aspectos positivos e negativos a se considerar. No entanto, a Intel conseguiu superar os desafios e obter insights valiosos a partir do conteúdo dos sites das empresas.

Recursos:

ieeexplore.org (https://ieeexplore.ieee.org/document/9323372)

Destaque: Insights acionáveis a partir do conteúdo dos sites: melhorando o perfil das empresas

Este artigo Discute um sistema aplicável desenvolvido pela Intel para extrair insights acionáveis a partir do conteúdo dos sites das empresas. O sistema aborda os desafios de identificação de perfis de empresas precisos, a obtenção de mais rótulos para o treinamento do modelo e a distribuição externa de rótulos irrelevantes. Através de técnicas avançadas de processamento de linguagem natural e aprendizado de máquina, a Intel conseguiu aprimorar o perfil das empresas, economizando tempo e esforço de seus representantes de vendas.

FAQ:

Q: Como a Intel utilizou a Wikipedia para obter mais rótulos? R: A Intel extraiu uma lista de empresas da Wikipedia e analisou as páginas para obter informações sobre indústrias e produtos. Essas informações foram usadas para treinar um modelo e transferir os rótulos da Wikipedia para a taxonomia interna da Intel.

Q: Como a Intel lidou com rótulos irrelevantes nas empresas? R: A Intel utilizou a Wikipedia para identificar empresas com rótulos irrelevantes, adicionando essas empresas ao conjunto de treinamento. Além disso, um rótulo geral foi criado para atrair as demais categorias irrelevantes, melhorando os resultados do modelo.

Q: Quais foram os principais desafios enfrentados pela equipe da Intel? R: Os principais desafios foram a extração significativa de informações das páginas da web, a obtenção de mais rótulos para o treinamento do modelo e a distribuição externa de rótulos irrelevantes. A equipe superou esses desafios usando uma combinação de técnicas avançadas de processamento de linguagem natural, aprendizado de máquina e aprendizado fraco.

Tudo que você precisa saber sobre Inteligência de Ameaças Cibernéticas

A série 4000 da Nvidia vem aí: tudo que você precisa saber!

Are you spending too much time looking for ai tools?