Pinpoint permite procesar cientos de miles de documentos con inteligencia artificial, para subir a la plataforma esa cantidad de información sin tropiezos es necesario conocer sus características. En este artículo presentamos las principales recomendaciones.
Pinpoint es la herramienta de Google que pone la inteligencia artificial al servicio del periodismo. Funciona como un repositorio virtual semejante a Google Drive, con la diferencia que mientras se sube cada documento, Pinpoint lee el contenido e identifica nombres, lugares y organizaciones y arroja posibles filtros y conexiones útiles para la investigación periodística.
Cada colección —un conjunto de documentos con un mismo eje temático— tiene la capacidad de contener y procesar hasta 200 mil archivos y puede recibir audios, videos, textos en formato editable o PDF, correos electrónicos, imágenes con texto escrito a mano e informes escaneados.
Conoce y vencerás
Esta herramienta es intuitiva, pero puedes encontrar obstáculos mientras subes información: un audio muy pesado que Pinpoint rechaza o una imagen pixelada que no podrá ser leída con precisión. También, después de la subida, la navegación de la información necesita de conocimiento: ¿Cómo buscas una palabra exacta o la omites de tu búsqueda?
Para evitar frustraciones, te invitamos a seguir estos consejos.
Tamaño y peso
Existe una duración y un tamaño ideal para que Pinpoint pueda recibir archivos sin problema. Te recomendamos tener en cuenta esta lista con las capacidades que cada archivo, de forma individual, debe tener antes de ser subido:
Peso y duración máxima por unidad:
PDF: 1GB.
Archivos de video y audio: 8GB o 2 horas.
Imágenes, Microsoft y textos sin formato (TXT, RTF, CSV): 10 MB.
Los PDF mayores a 500 MB se dividirán en varios documentos de forma automática.
Si el PDF tiene poco peso (21 MB, por ejemplo), pero muchas páginas de texto (7.000) también se dividirán.
Fotografías claras
Las tecnologías de Reconocimiento Óptico de Caracteres (OCR) y de Speech to text están implementadas en Pinpoint para el procesamiento de audios, videos, textos escritos a mano alzada o escaneados.
El programa reconoce el texto de los documentos escaneados y de las fotografías de escritos a mano alzada. La tecnología tiene sus límites, por eso trata que las imágenes sean de calidad o que, por lo menos, no estén pixeladas. Las imágenes pueden subirse a Pinpoint de forma individual o agrupadas en un PDF antes de la acción.
Un consejo: cuando poseas imágenes de texto escrito a mano alzada, es preferible cargar las fotografías de forma individual a Pinpoint. Si se guardan varias imágenes en un PDF y se sube este archivo, se disminuye la capacidad de lectura del OCR.
Los archivos sonoros y visuales se convierten en PDF con su transcripción a texto, adicionalmente, cada párrafo tiene marcadores de audio incorporados para identificar cuándo se dijo lo que aparece escrito.
Orden
En Pinpoint no existe la posibilidad de agrupar los documentos por carpetas. Los cientos de documentos que subas estarán juntos y se organizarán en orden alfabético sin importar el formato. Esto puede provocar que se desordenen documentos que, tal vez, sea mejor que estén uno detrás del otro.
¿Por qué? Cuando visualices cada documento podrás acceder al siguiente archivo de forma inmediata. Si no hay orden, la secuencialidad del contenido de algunos archivos puede perderse y, para enmendar el error, será necesario eliminarlos de la plataforma, renombrarlos y volverlos a subir.
Para evitar la pérdida de tiempo, te recomendamos que agregues combinaciones numéricas a los archivos que quieras juntos. Puedes poner también fechas o categorías como “Cuaderno 1” más el nombre del archivo, esto hará que el programa los agrupe en secuencia.
Filtro de palabras clave
Hay muchas maneras de filtrar y analizar información de los documentos cargados en Pinpoint. Una primera lectura la arroja la misma plataforma: en la zona derecha de la pantalla reproduce los conceptos con más ocurrencias en la colección (aprovechando el algoritmo de inteligencia artificial de Google, puede incluso agrupar nombres escritos de diferente manera o con errores de tipeo).
Pinpoint tiene conocimientos en gramática y conceptos, por eso, cuando agrupa los conceptos más mencionados o cuando se hace una búsqueda en el cuadro de texto sin comillas, busca sinónimos de la palabra y los une como un mismo concepto.
Por ejemplo, en una colección sobre el paramilitarismo en Colombia, se creó la entidad Salvatore Mancuso. Cuando se da clic sobre la entidad relaciona, de forma acertada, palabras como “Mono Mancuso”, “el señor Mancuso” y “Salvatore Mancuso”.
Ahora, la herramienta más importante para analizar documentos consiste en realizar filtros de los documentos de la colección. Estos se pueden hacer mediante los operadores habituales en Google Search.
Las comillas, por ejemplo, sirven para evitar que la IA haga la relación de sinónimos. Si escribo “señor Mancuso”, encontraré los documentos donde se hizo referencia a él solo de esa forma. No aparecerá “Mono Mancuso”.
También es posible hacer una búsqueda negando la aparición de una palabra con el signo menos (-) pegado a la palabra que quiero ocultar. Por ejemplo, si quiero conocer los documentos donde se habla de Autodefensas, pero no se menciona a Salvatore Mancuso, puedo escribir: “Autodefensas” -Salvatore Mancuso.
Además, es posible aplicar filtros combinados, donde, por ejemplo, se haga una búsqueda de “contratos” y luego se aplique una búsqueda adicional de “comunicaciones”, para encontrar documentos donde aparezca esta palabra dentro del subconjunto de documentos que mencionan de contratos.
Por otro lado, también se pueden crear etiquetas para guardar determinada búsqueda y luego poder navegar más fácilmente la colección.
Visitar otras colecciones
Si tienes una cuenta de Gmail, puedes usar Pinpoint para crear colecciones de forma privada. Estas tienen un límite de 100GB, por lo que te recomendamos un uso inteligente del espacio y, en caso de acercarse al límite, será necesario eliminar los documentos que pierden uso.
Estas colecciones privadas pueden ser compartidas con otros correos electrónicos, de la misma forma que se hace en Drive. La diferencia es que la otra persona no tendrá permisos para editar, solo para verlos.
También existen colecciones públicas. Estas son creadas por organizaciones, medios de comunicación o corporaciones académicas con un permiso especial de Google. Ya existen colecciones en francés, inglés, italiano y portugués y se pueden consultar en la página de exploración de Pinpoint.
En español con CONNECTAS
CONNECTAS es la organización encargada de alimentar las colecciones de Pinpoint en América Latina, gracias a un convenio con Google. Las primeras colecciones ya están alojadas en el explorador de la IA.
La primera colección es sobre Los cuadernos de las coimas de Argentina. Son el registro manual de Óscar Centeno, chofer del Ministerio de Planificación, de la ruta de las coimas entregadas por empresarios al kirchnerismo entre 2005 y 2015. Estos documentos fueron investigados por Diego Cabot, periodista de La Nación, en el 2018.
También están los audios del programa matutino del presidente de México, Andrés Manuel López Obrador. Y los archivos de las finanzas de las Autodefensas Campesinas de Córdoba y Urabá (ACCU), documentos decomisados en 1998 en el lugar que dio nombre al caso, el Parqueadero Padilla. Los archivos del proceso judicial fueron aportados por Juan Diego Restrepo, director de verdadabierta.com
Publicado en connectas.
Comments