Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Presentamos Qwen3-VL-Embedding y Qwen3-VL-Reranker – ¡avanzando el estado del arte en la recuperación multimodal y la comprensión cruzada de modalidades!
✨ Destacados:
✅ Construido sobre el robusto modelo base Qwen3-VL
✅ Procesa texto, imágenes, capturas de pantalla, videos y entradas de modalidad mixta
✅ Soporta más de 30 idiomas
✅ Logra un rendimiento de vanguardia en los benchmarks de recuperación multimodal
✅ Código abierto y disponible en Hugging Face, GitHub y ModelScope
✅ ¡Despliegue de API en Alibaba Cloud próximamente!
🎯 Arquitectura de recuperación en dos etapas:
📊 Modelo de Embedding – genera representaciones vectoriales semánticamente ricas en un espacio de embedding unificado
🎯 Modelo Reranker – calcula puntuaciones de relevancia detalladas para una mayor precisión en la recuperación
🔍 Principales escenarios de aplicación:
Recuperación de imagen-texto, búsqueda de videos, RAG multimodal, respuesta a preguntas visuales, agrupamiento de contenido multimodal, búsqueda visual multilingüe, ¡y más!
🌟 Capacidades amigables para desarrolladores:
• Dimensiones de embedding configurables
• Personalización de instrucciones específicas para tareas
• Soporte para cuantización de embeddings para un despliegue eficiente y rentable en downstream
Hugging Face:
ModelScope:
Github:
Blog:
Informe técnico:

Descripción general de la arquitectura Qwen3-VL-Embedding y Qwen3-VL-Reranker.

Resultados de la evaluación en los benchmarks MMEB-v2 y MMTEB

129
Parte superior
Clasificación
Favoritos
